(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210119593.8
(22)申请日 2022.02.09
(65)同一申请的已公布的文献号
申请公布号 CN 114153979 A
(43)申请公布日 2022.03.08
(73)专利权人 北京泰迪熊移动科技有限公司
地址 100085 北京市海淀区信息路甲28号7
层D座07A3 6
(72)发明人 邵爽
(74)专利代理 机构 北京乐知新创知识产权代理
事务所(普通 合伙) 11734
专利代理师 江宇
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/953(2019.01)G06F 40/169(2020.01)
G06F 40/194(2020.01)
G06F 40/258(2020.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)
G06Q 30/06(2012.01)
(56)对比文件
CN 10876 3205 A,2018.1 1.06
US 2020175 563 A1,2020.0 6.04
CN 110223095 A,2019.09.10
审查员 邹予婷
(54)发明名称
一种商品关键词的识别方法、 装置、 电子设
备及存储介质
(57)摘要
本公开提供了一种商品关键词的识别方法、
装置、 电子设备及存储介质, 包括确定目标关键
词映射的样 本商品; 获取样本商品对应的多种文
本数据, 获取每种文本数据的多个初始词向量;
根据多个初始词向量, 确定每种文本数据的第一
词向量; 根据目标关键词的词向量和每种文本数
据的初始词向量, 确定每种文本数据的第二词向
量; 构建样本商品对应的样本数据, 样本数据包
括目标关键词的词向量、 每种文本数据的第一词
向量和第二词向量和样本商品的属性特征; 根据
目标关键词映射的所有样本商品对应的样本数
据, 训练目标关键词对应的二分类模型; 构建目
标商品对应的目标数据, 通过二 分类模型对目标
数据进行计算, 识别目标关键词是否为目标商品
的关键词。
权利要求书3页 说明书14页 附图4页
CN 114153979 B
2022.05.13
CN 114153979 B
1.一种商品关键词的识别方法, 其特 征在于, 包括:
确定目标关键词映射的所有样本商品;
获取所述样本商 品对应的多种 文本数据, 所述文本数据包括: 标题文本数据、 标签文本
数据和评论文本数据;
获取每种所述文本数据的多个初始词向量;
根据每种所述文本数据的多个初始词向量, 确定每种所述文本数据的一个第一词向
量;
根据所述目标关键词的词向量和每种所述文本数据的多个初始词向量, 确定每种所述
文本数据的一个第二词向量;
构建所述样本商 品对应的样本数据, 所述样本数据包括: 所述目标关键词的词向量、 每
种所述文本数据的第一词向量和第二词向量和所述样本商品的属性特 征;
根据所述目标关键词映射的所有样本商 品对应的样本数据, 训练所述目标关键词对应
的二分类模型;
构建目标商品对应的目标数据, 所述目标数据包括: 所述目标关键词的词向量、 所述目
标商品对应的每种所述文本数据的第一词向量和第二词向量和所述目标商品的属性特 征;
通过所述二分类模型对所述目标数据进行计算, 确定所述目标关键词是否为所述目标
商品的关键词。
2.根据权利要求1所述的商 品关键词的识别方法, 其特征在于, 所述文本数据为标题文
本数据或标签文本数据时, 获取 所述文本数据的多个初始词向量, 包括:
获取样本商品对应的所有初始关键词, 所述初始关键词包括所述目标关键词;
对于每个所述初始关键词: 从所述文本数据中去 除该初始关键词, 并构建对应的滑动
窗口, 通过该滑动窗口对去除了该初始关键词的文本数据进行采集, 得到该初始关键词对
应的训练样本, 根据所述训练样本得到该初始关键词对应的初始词向量集合, 所述初始词
向量集合包括至少一个初始词向量:
所有初始关键词对应的初始词向量 集合组成了所述文本数据的多个初始词向量。
3.根据权利要求1或2所述的商品关键词的识别方法, 其特征在于, 所述根据每种所述
文本数据的多个初始词向量, 确定每种所述文本数据的一个第一词向量, 包括:
根据所述标题文本数据对应的所有初始词向量和每个初始词向量的权重, 得到所述标
题文本数据对应的一个第一词向量;
根据所述标签文本数据对应的所有初始词向量, 得到所述标签文本数据中每个标签对
应的中间词向量, 根据所述中间词向量和中间词向量的权重, 得到所述标签文本数据对应
的一个第一词向量;
计算每条所述评论文本数据对应的权重, 根据所述权重和所述评论文本数据对应的初
始词向量, 得到所有评论文本数据对应的一个第一词向量。
4.根据权利要求3所述的商 品关键词的识别方法, 其特征在于, 所述根据 所述标签文本
数据对应的所有初始词向量, 得到所述标签文本数据中每 个标签对应的中间词向量, 包括:
获取每个标签对应的所有初始词向量;
对每个标签对应的所有初始词向量进行求和, 再除以每个标签对应的所有初始词向量
的个数, 得到所述标签文本数据中每 个标签对应的中间词向量。权 利 要 求 书 1/3 页
2
CN 114153979 B
25.根据权利要求1或2所述的商品关键词的识别方法, 其特征在于, 所述根据所述目标
关键词的词向量和每种所述文本数据的多个初始词向量, 确定每种所述文本数据的一个第
二词向量, 包括:
所述文本数据为标题文本数据或评论文本数据时, 计算所述目标关键词的词向量和所
述文本数据的每个初始词向量的相似度, 按照相似度从大到小选取设定数量的初始词向
量, 根据选取的多个初始词向量, 确定所述文本数据的一个第二词向量;
所述文本数据为标签文本数据时, 计算所述目标关键词的词向量和所述文本数据的每
个中间词向量的相似度, 按照相似度从大到小选取设定数量的中间词向量, 根据选取 的多
个中间词向量, 确定所述文本数据的一个第二词向量。
6.根据权利要求1所述的商 品关键词的识别方法, 其特征在于, 所述确定目标关键词映
射的所有样本商品, 包括:
根据样本商品的属性特征对样本商品进行聚类处理, 得到多个簇, 将同一个簇中的多
个样本商品映射到同一所述目标关键词。
7.一种商品关键词的识别装置, 其特 征在于, 包括:
获取模块, 用于确定目标关键词映射的所有样本商品;
获取所述样本商 品对应的多种 文本数据, 所述文本数据包括: 标题文本数据、 标签文本
数据和评论文本数据;
所述获取模块还用于获取每种所述文本数据的多个初始词向量;
处理模块, 用于根据每种所述文本数据的多个初始词向量, 确定每种所述文本数据的
一个第一词向量;
根据所述目标关键词的词向量和每种所述文本数据的多个初始词向量, 确定每种所述
文本数据的一个第二词向量;
所述处理模块还用于构建所述样本商品对应的样本数据, 所述样本数据包括: 所述目
标关键词的词向量、 每种所述文本数据的第一词向量和第二词向量和所述样本商品的属性
特征;
训练模块, 用于根据所述目标关键词映射的所有样本商品对应的样本数据, 训练所述
目标关键词对应的二分类模型;
计算模块, 用于构建目标商品对应的目标数据, 所述目标数据包括: 所述目标关键词的
词向量、 所述目标商品对应的每种所述文本数据的第一词向量和 第二词向量和所述目标商
品的属性特 征;
所述计算模块还用于通过所述二分类模型对所述目标数据进行计算, 确定所述目标关
键词是否为所述目标商品的关键词。
8.根据权利要求7所述的商 品关键词的识别装置, 其特征在于, 所述获取模块还用于获
取样本商品对应的所有初始关键词, 所述初始关键词包括所述目标关键词;
对于每个所述初始关键词: 从所述文本数据中去 除该初始关键词, 并构建对应的滑动
窗口, 通过该滑动窗口对去除了该初始关键词的文本数据进行采集, 得到该初始关键词对
应的训练样本, 根据所述训练样本得到该初始关键词对应的初始词向量集合, 所述初始词
向量集合包括至少一个初始词向量:
所有初始关键词对应的初始词向量 集合组成了所述文本数据的多个初始词向量。权 利 要 求 书 2/3 页
3
CN 114153979 B
3
专利 一种商品关键词的识别方法、装置、电子设备及存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:38上传分享