standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210125113.9 (22)申请日 2022.02.10 (71)申请人 武汉路特斯汽车有限公司 地址 430056 湖北省武汉市武汉经济技 术 开发区川江池二路28号3号楼 A404 (72)发明人 李剑锋 (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 郑华洁 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种关键词确定方法及装置 (57)摘要 本发明公开一种关键词确定方法及装置, 涉 及自然语言处理技术领域。 具体方案包括: 计算 机设备获取待处理文本, 对待处理文本包括的每 个词语进行词性识别, 得到每个词语的词性, 并 根据待处理文本包括的每个字的先后顺序, 确定 每个字的位置信息, 根据每个字的位置信息, 确 定每个词语的词性的位置信息, 而后采用关键词 识别模型对目标特征信息进行关键词识别, 得到 第一关键词集合, 其中, 目标特征信息包括目标 嵌入信息和目标位置信息, 目标嵌入信息包括每 个字的字向量和每个词语的词性, 目标位置信息 包括每个字的位置信息和每个词性的位置信息, 最后确定待处理文本的目标关键词。 本发明能够 提高关键词抽取的准确率和识别率。 权利要求书2页 说明书10页 附图6页 CN 114637818 A 2022.06.17 CN 114637818 A 1.一种关键词确定方法, 其特 征在于, 包括: 获取待处 理文本; 对所述待处 理文本包括的每 个词语进行词性识别, 得到每 个词语的词性; 根据所述待处 理文本包括的每 个字的先后顺序, 确定每 个字的位置信息; 根据每个字的位置信息, 确定每 个词语的词性的位置信息; 采用关键词识别模型对目标特征信息进行关键词识别, 得到第一关键词集合, 所述目 标特征信息包括目标嵌入信息和目标位置信息, 所述目标嵌入信息包括每个字的字向量和 每个词语的词性, 所述目标位置信息包括每个字的位置信息和每个词语的词性的位置信 息; 确定所述待处理文本的目标关键词, 所述目标关键词包括所述第 一关键词集合中的词 语。 2.根据权利要求1所述的方法, 其特征在于, 所述根据每个字的位置信息, 确定每个词 语的词性的位置信息, 包括: 将每个词语中的第一个字的位置信息, 确定为每 个词语的词性的位置信息; 或者, 将每个词语中的最后一个字的位置信息, 确定为每 个词语的词性的位置信息 。 3.根据权利要求1或2所述的方法, 其特征在于, 所述确定所述待处理文本的目标关键 词, 包括: 将所述第一关键词集 合中的词语确定为所述目标关键词; 或者, 采用词典匹配技 术, 确定所述待处 理文本的第二关键词集 合; 将所述第一关键词集 合和所述第二关键词集 合的并集, 确定为目标关键词集 合; 采用预设规则, 从所述目标关键词集 合包括的词语中确定所述目标关键词。 4.根据权利要求1或2所述的方法, 其特征在于, 所述目标特征信息还包括目标片段信 息, 所述方法还 包括: 获取预存的目标片段信息, 所述目标片段信息包括第一信息和第二信息, 所述第一信 息用于指示所述目标嵌入信息中的字向量, 所述第二信息用于指示所述目标嵌入信息中的 词性。 5.根据权利要求1或2所述的方法, 其特 征在于, 所述方法还 包括: 根据所述待处 理文本包括的每 个字在预存的字典中的位置, 确定每 个字的字向量。 6.根据权利要求1或2所述的方法, 其特 征在于, 所述方法还 包括: 确定所述待处 理文本包括的每 个句子; 在每个句子包括的所有字向量之后拼接每个句子包括的所有词语的词性, 得到所述目 标嵌入信息; 或者, 在所述待处理文本包括的所有字向量之后拼接所述待处理文本包括的所有词语的词 性, 得到所述目标 特征信息还 包括所述目标片段信息 。 7.根据权利要求1或2所述的方法, 其特 征在于, 所述方法还 包括: 获取多个文本样本和每个文本样本的标签信 息, 每个标签信 息用于标识每个文本样本 中的关键词;权 利 要 求 书 1/2 页 2 CN 114637818 A 2对每个文本样本进行 特征提取处 理, 得到每 个文本样本对应的目标 特征信息; 以每个文本样本对应的目标特征信 息为深度神经网络模型的输入, 以每个文本样本的 标签信息为所述深度神经网络模型 的输出, 对所述深度神经网络模型进行训练, 得到所述 关键词识别模型。 8.一种关键词确定装置, 其特 征在于, 包括: 获取模块, 用于获取待处 理文本; 词性识别模块, 用于对所述获取模块获取的所述待处理文本包括的每个词语进行词性 识别, 得到每 个词语的词性; 第一确定模块, 用于根据所述获取模块获取的所述待处理文本包括的每个字的先后顺 序, 确定每 个字的位置信息; 第二确定模块, 用于根据所述第一确定模块确定的每个字的位置信息, 确定每个词语 的词性的位置信息; 关键词识别模块, 用于采用关键词识别模型对目标特征信息进行关键词识别, 得到第 一关键词集合, 所述 目标特征信息包括 目标嵌入信息和目标位置信息, 所述 目标嵌入信息 包括每个字的字向量和所述词性识别模块识别的每个词语的词性, 所述目标位置信息包括 所述第一确定模块确定的每个字的位置信息和所述第二确定模块确定的每个词语的词性 的位置信息; 第三确定模块, 用于确定所述待处理文本的目标关键词, 所述目标关键词包括所述关 键词识别模块识别的所述第一关键词集 合中的词语。 9.一种计算机设备, 其特征在于, 所述计算机设备包括: 处理器和存储器; 所述存储器 用于存储计算机程序代码, 所述计算机程序代码包括计算机指令; 当所述处理器执行所述 计算机指令时, 所述计算机设备 执行如权利要求1 ‑7中任意一项所述的关键词确定方法。 10.一种计算机可读存储介质, 其特征在于, 包括计算机指令, 当所述计算机指令在计 算机设备上运行时, 使得所述计算机设备执行如权利要求1 ‑7中任意一项所述的关键词确 定方法。权 利 要 求 书 2/2 页 3 CN 114637818 A 3
专利 一种关键词确定方法及装置
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:37
上传分享
举报
下载
原文档
(865.1 KB)
分享
友情链接
DB14-T 2003-2020 卫生医疗机构能耗定额 山西省.pdf
GB-T 40756-2021 全国一体化政务服务平台线上线下融合工作指南.pdf
GB-T 4990-2010 热电偶用补偿导线合金丝.pdf
GB-T 30257-2013 节能量测量和验证技术要求 通风机系统.pdf
等保二级-安全管理-安全管理制度.doc
T-LSCY 001—2022 工业企业节能管理指南.pdf
GB-T 17903.3-2024 信息技术 安全技术 抗抵赖 第3部分:采用非对称技术的机制.pdf
GB 55031-2022 民用建筑通用规范.pdf
GB-Z 42285-2022 道路车辆 电子电气系统ASIL等级确定方法指南.pdf
GB-T 39256-2020 绿色制造 制造企业绿色供应链管理 信息化管理平台规范.pdf
TC260 网络安全标准实践指南 Windows 7操作系统安全加固指引.pdf
HJ 1209-2021 工业企业土壤和地下水自行监测技术指南(试行).pdf
CSA 物联网安全控制框架(第二版).pdf
GB-T 37217-2018 自动扶梯和自动人行道主要部件报废技术条件.pdf
GB-T 18771.2-2015 烟草术语 第2部分:烟草制品与烟草加工.pdf
GB-T 36896.2-2018 轻型有缆遥控水下机器人 第2部分:机械手与液压系统.pdf
GB-T 36687-2018 保险术语.pdf
GB-T 41338-2022 增材制造用钨及钨合金粉.pdf
GB-T 27002-2011 合格评定 保密性 原则和要求.pdf
GB-T 17749-2008 白度的表示方法.pdf
1
/
19
评价文档
赞助2.5元 点击下载(865.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。