(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211133608.2
(22)申请日 2022.09.15
(71)申请人 广东数鼎科技有限公司
地址 510623 广东省广州市天河区华夏路
26号1104室 (部位: 自编1104B),1105
室 (仅限办公)
(72)发明人 蓬蕾 程博 周策 黄锡轩
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 吕金金
(51)Int.Cl.
G06Q 10/08(2012.01)
G06F 16/215(2019.01)
G06F 16/951(2019.01)
G06F 40/216(2020.01)G06K 9/62(2022.01)
(54)发明名称
一种二手车库存量的确定方法及装置
(57)摘要
本发明公开了一种二手车库存量的确定方
法及装置, 方法包括根据网络爬虫技术获取各车
源的初始数据; 基于预置的型号匹配模型和预置
的车商匹配模 型, 得到由型号匹配模 型输出的型
号结果和由车商匹配模型输出的车商结果构成
的各车源的待清洗数据; 对待清洗数据进行数据
清洗得到 各车源的待识别数据; 根据各车源之间
的相似度对待识别数据进行重复车源识别, 得到
各车源的待筛选数据; 从待筛选数据中筛选出目
标二手车车源, 基于目标二手车车源的在售状态
得到目标二手车的库存量。 本发 明提供的二手车
库存量的确定方法及装置, 对车源信息进行抓
取、 匹配、 数据清洗、 重复车源识别、 在售状态确
认等, 最终得到二手车的库存量, 提高了二手车
库存量的准确率。
权利要求书3页 说明书11页 附图2页
CN 115496440 A
2022.12.20
CN 115496440 A
1.一种二手车库存量的确定方法, 其特 征在于, 包括:
根据网络爬虫技术获取各车源的初始数据, 其中, 所述初始数据包括初始型号数据和
初始车商数据;
基于预置的型号匹配模型和预置的车商匹配模型对所述初始数据进行处理, 得到由所
述型号匹配模型输出 的型号结果和由所述车商匹配模型输出的车商结果构成的各车源的
待清洗数据;
对所述待清洗数据进行 数据清洗, 得到各 车源的待识别数据;
根据各车源之间的相似度, 对所述待识别数据进行重复车源识别, 得到各车源的待筛
选数据;
从所述待筛选数据中筛选出目标二手车车源, 并基于目标二手车车源的在售状态, 得
到目标二手车的库存量。
2.如权利要求1所述的二手车库存量的确定方法, 其特征在于, 所述预置的车商 匹配模
型, 其构建过程包括:
第一步, 获取各车源的车商信息的训练样本集;
第二步, 基于TF ‑IDF技术, 从所述训练样本集中提取每一车源的车商名称特征词, 构建
特征词库;
第三步, 基于NLP技术和所述特征词库, 从所述训练样本集中选取任意两个车源的车商
信息, 并分别计算上述两者的车商相似度;
第四步, 将相似度超过阈值的车商标记为同一个车商;
第五步, 循环所述第三 步和所述第四步, 直至遍历所述训练样本集中的全部车商;
第六步, 记录得到的所有所述同一个车商, 以此构建所述车商匹配模型。
3.如权利要求2所述的二手车库存量的确定方法, 其特征在于, 若所述初始车商数据相
比于所述训练样本集为新增数据, 则依次将所述初始车商 数据和所述训练样本集中的每一
车商组队, 并计算每一组队的相似度;
若相似度最高的组队对应的相似度 大于既定阈值, 则将这一组队中的初始车商数据和
所述训练样本集中的对应车商标记为同一个车商, 并以此 更新所述车商匹配模型;
若相似度最高的组队对应的相似度小于所述既定 阈值, 则将这一组队中的初始车商数
据标记为全新车商, 并以此 更新所述车商匹配模型。
4.如权利要求2所述的二手车库存量的确定方法, 其特征在于, 所述分别计算上述两者
的车商相似度, 具体包括:
基于NLP技术和所述特 征词库, 计算两个车商的名称相似度;
基于NLP技术和车商经纬度信息, 计算两个车商的地址相似度;
基于NLP技术, 计算两个车商发布的车源的相似度;
将所述名称相似度、 地址相似度和所述车源的相似度作为输入变量, 将对两个车商进
行人工标记得到结果作为标记变量, 基于所述输入变量和所述标记变量构建概率预测模
型, 训练得到每 个所述输入变量的系数;
以得到的所述系数作为权 重计算所述车商相似度。
5.如权利要求1所述的二手车库存量的确定方法, 其特征在于, 所述根据 各车源之间的
相似度, 对所述待识别数据进行重复车源识别, 具体为:权 利 要 求 书 1/3 页
2
CN 115496440 A
2在所述待识别数据中, 依次选取任意两个车源, 判断两者所属的销售圈的类型, 并确定
对应的所述销售圈的预设阈值, 其中, 所述销售圈反映两个车源在销售地 域上的共同性;
基于NLP技术, 依次计算选取的两个车源的相似度, 将相似度结果与对应的所述销售圈
的预设阈值进行比较, 判断是否为重复车源。
6.如权利要求1所述的二手车库存量的确定方法, 其特征在于, 所述基于目标二手车车
源的在售状态, 得到目标二手车的库存量, 具体包括:
获取目标二手车车源的重复车源记录, 若目标二手车车源在所述记录 内均未下架或已
售, 且目标二手车车源在所述记录内的最 晚发布时间与当前时间的差值在预设范围内, 则
标记为在售状态, 否则为已售状态。
7.一种二手车库存量的确定装置, 其特 征在于, 包括:
数据获取模块, 用于根据网络爬虫技术获取各车源的初始数据, 其中, 所述初始数据包
括初始型号数据和初始车商数据;
型号和车商匹配模块, 用于基于预置的型号匹配模型和预置的车商匹配模型对所述初
始数据进 行处理, 得到由所述型号匹配模型输出的型号结果和由所述车商匹配模型输出的
车商结果构成的各 车源的待清洗数据;
车源数据清洗模块, 用于对所述待清洗数据进行 数据清洗, 得到各 车源的待识别数据;
重复车源识别模块, 用于根据各车源之间的相似度, 对所述待识别数据进行重复车源
识别, 得到各 车源的待筛 选数据;
库存量计算模块, 用于从所述待筛选数据中筛选出目标二手车车源, 并基于目标二手
车车源的在售状态, 得到目标二手车的库存量。
8.如权利要求7所述的二手车库存量的确定装置, 其特征在于, 所述预置的车商 匹配模
型, 其构建过程包括:
第一步, 获取各车源的车商信息的训练样本集;
第二步, 基于TF ‑IDF技术, 从所述训练样本集中提取每一车源的车商名称特征词, 构建
特征词库;
第三步, 基于NLP技术和所述特征词库, 从所述训练样本集中选取任意两个车源的车商
信息, 并分别计算上述两者的车商相似度;
第四步, 将相似度超过阈值的车商标记为同一个车商;
第五步, 循环所述第三 步和所述第四步, 直至遍历所述训练样本集中的全部车商;
第六步, 记录得到的所有所述同一个车商, 以此构建所述车商匹配模型。
9.如权利要求8所述的二手车库存量的确定装置, 其特征在于, 所述分别计算上述两者
的车商相似度, 具体包括:
基于NLP技术和所述特 征词库, 计算任意两个车商的名称相似度;
基于NLP技术和车商经纬度信息, 计算任意两个车商的地址相似度;
基于NLP技术, 计算任意两个车商发布的车源的相似度;
将所述名称相似度、 地址相似度和所述车源的相似度作为输入变量, 将对两个车商进
行人工标记得到结果作为标记变量, 基于所述输入变量和所述标记变量构建概率预测模
型, 训练得到每 个所述输入变量的系数;
以得到的所述系数作为权 重计算所述车商相似度。权 利 要 求 书 2/3 页
3
CN 115496440 A
3
专利 一种二手车库存量的确定方法及装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:19:57上传分享