专利一种二手车库存量的确定方法及装置 -在线下载 -AI解读-standardlibrary.site

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211133608.2 (22)申请日 2022.09.15 (71)申请人广东数鼎科技有限公司地址 510623 广东省广州市天河区华夏路 26号1104室（部位：自编1104B）,1105 室（仅限办公） (72)发明人蓬蕾　程博　周策　黄锡轩　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师吕金金 (51)Int.Cl. G06Q 10/08(2012.01) G06F 16/215(2019.01) G06F 16/951(2019.01) G06F 40/216(2020.01)G06K 9/62(2022.01) (54)发明名称一种二手车库存量的确定方法及装置 (57)摘要本发明公开了一种二手车库存量的确定方法及装置，方法包括根据网络爬虫技术获取各车源的初始数据；基于预置的型号匹配模型和预置的车商匹配模型，得到由型号匹配模型输出的型号结果和由车商匹配模型输出的车商结果构成的各车源的待清洗数据；对待清洗数据进行数据清洗得到各车源的待识别数据；根据各车源之间的相似度对待识别数据进行重复车源识别，得到各车源的待筛选数据；从待筛选数据中筛选出目标二手车车源，基于目标二手车车源的在售状态得到目标二手车的库存量。本发明提供的二手车库存量的确定方法及装置，对车源信息进行抓取、匹配、数据清洗、重复车源识别、在售状态确认等，最终得到二手车的库存量，提高了二手车库存量的准确率。权利要求书3页说明书11页附图2页 CN 115496440 A 2022.12.20 CN 115496440 A 1.一种二手车库存量的确定方法，其特征在于，包括：根据网络爬虫技术获取各车源的初始数据，其中，所述初始数据包括初始型号数据和初始车商数据；基于预置的型号匹配模型和预置的车商匹配模型对所述初始数据进行处理，得到由所述型号匹配模型输出的型号结果和由所述车商匹配模型输出的车商结果构成的各车源的待清洗数据；对所述待清洗数据进行数据清洗，得到各车源的待识别数据；根据各车源之间的相似度，对所述待识别数据进行重复车源识别，得到各车源的待筛选数据；从所述待筛选数据中筛选出目标二手车车源，并基于目标二手车车源的在售状态，得到目标二手车的库存量。 2.如权利要求1所述的二手车库存量的确定方法，其特征在于，所述预置的车商匹配模型，其构建过程包括：第一步，获取各车源的车商信息的训练样本集；第二步，基于TF ‑IDF技术，从所述训练样本集中提取每一车源的车商名称特征词，构建特征词库；第三步，基于NLP技术和所述特征词库，从所述训练样本集中选取任意两个车源的车商信息，并分别计算上述两者的车商相似度；第四步，将相似度超过阈值的车商标记为同一个车商；第五步，循环所述第三步和所述第四步，直至遍历所述训练样本集中的全部车商；第六步，记录得到的所有所述同一个车商，以此构建所述车商匹配模型。 3.如权利要求2所述的二手车库存量的确定方法，其特征在于，若所述初始车商数据相比于所述训练样本集为新增数据，则依次将所述初始车商数据和所述训练样本集中的每一车商组队，并计算每一组队的相似度；若相似度最高的组队对应的相似度大于既定阈值，则将这一组队中的初始车商数据和所述训练样本集中的对应车商标记为同一个车商，并以此更新所述车商匹配模型；若相似度最高的组队对应的相似度小于所述既定阈值，则将这一组队中的初始车商数据标记为全新车商，并以此更新所述车商匹配模型。 4.如权利要求2所述的二手车库存量的确定方法，其特征在于，所述分别计算上述两者的车商相似度，具体包括：基于NLP技术和所述特征词库，计算两个车商的名称相似度；基于NLP技术和车商经纬度信息，计算两个车商的地址相似度；基于NLP技术，计算两个车商发布的车源的相似度；将所述名称相似度、地址相似度和所述车源的相似度作为输入变量，将对两个车商进行人工标记得到结果作为标记变量，基于所述输入变量和所述标记变量构建概率预测模型，训练得到每个所述输入变量的系数；以得到的所述系数作为权重计算所述车商相似度。 5.如权利要求1所述的二手车库存量的确定方法，其特征在于，所述根据各车源之间的相似度，对所述待识别数据进行重复车源识别，具体为：权　利　要　求　书 1/3 页 2 CN 115496440 A 2在所述待识别数据中，依次选取任意两个车源，判断两者所属的销售圈的类型，并确定对应的所述销售圈的预设阈值，其中，所述销售圈反映两个车源在销售地域上的共同性；基于NLP技术，依次计算选取的两个车源的相似度，将相似度结果与对应的所述销售圈的预设阈值进行比较，判断是否为重复车源。 6.如权利要求1所述的二手车库存量的确定方法，其特征在于，所述基于目标二手车车源的在售状态，得到目标二手车的库存量，具体包括：获取目标二手车车源的重复车源记录，若目标二手车车源在所述记录内均未下架或已售，且目标二手车车源在所述记录内的最晚发布时间与当前时间的差值在预设范围内，则标记为在售状态，否则为已售状态。 7.一种二手车库存量的确定装置，其特征在于，包括：数据获取模块，用于根据网络爬虫技术获取各车源的初始数据，其中，所述初始数据包括初始型号数据和初始车商数据；型号和车商匹配模块，用于基于预置的型号匹配模型和预置的车商匹配模型对所述初始数据进行处理，得到由所述型号匹配模型输出的型号结果和由所述车商匹配模型输出的车商结果构成的各车源的待清洗数据；车源数据清洗模块，用于对所述待清洗数据进行数据清洗，得到各车源的待识别数据；重复车源识别模块，用于根据各车源之间的相似度，对所述待识别数据进行重复车源识别，得到各车源的待筛选数据；库存量计算模块，用于从所述待筛选数据中筛选出目标二手车车源，并基于目标二手车车源的在售状态，得到目标二手车的库存量。 8.如权利要求7所述的二手车库存量的确定装置，其特征在于，所述预置的车商匹配模型，其构建过程包括：第一步，获取各车源的车商信息的训练样本集；第二步，基于TF ‑IDF技术，从所述训练样本集中提取每一车源的车商名称特征词，构建特征词库；第三步，基于NLP技术和所述特征词库，从所述训练样本集中选取任意两个车源的车商信息，并分别计算上述两者的车商相似度；第四步，将相似度超过阈值的车商标记为同一个车商；第五步，循环所述第三步和所述第四步，直至遍历所述训练样本集中的全部车商；第六步，记录得到的所有所述同一个车商，以此构建所述车商匹配模型。 9.如权利要求8所述的二手车库存量的确定装置，其特征在于，所述分别计算上述两者的车商相似度，具体包括：基于NLP技术和所述特征词库，计算任意两个车商的名称相似度；基于NLP技术和车商经纬度信息，计算任意两个车商的地址相似度；基于NLP技术，计算任意两个车商发布的车源的相似度；将所述名称相似度、地址相似度和所述车源的相似度作为输入变量，将对两个车商进行人工标记得到结果作为标记变量，基于所述输入变量和所述标记变量构建概率预测模型，训练得到每个所述输入变量的系数；以得到的所述系数作为权重计算所述车商相似度。权　利　要　求　书 2/3 页 3 CN 115496440 A 3

专利 一种二手车库存量的确定方法及装置

专利一种二手车库存量的确定方法及装置