standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210136839.2 (22)申请日 2022.02.15 (71)申请人 浪潮云信息技 术股份公司 地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园S01号楼 (72)发明人 伊文超 朱利霞 何彬彬 李明明 潘心冰 (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 阚恭勇 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于关键词的短文本相似度预测方法 (57)摘要 本发明提供一种基于关键词的短文本相似 度预测方法, 属于自然语言处理技领域, 首先, 提 取短文本数据中的核心内容, 构建关键词库; 其 次, 短文本对关键内容提取, 基于关键词库, 扩充 短文对的关键信息, 构造关键信息权重向量; 再 次, 短文本对语义特征提取并融合关键信息, 基 于transformer单元, 关联短文本对的上下文语 义信息, 并利用关键信息权重向量, 使注意力机 制重点关注于关键信息, 减少无用信息对结果的 干扰; 最后, 基于分类网络, 预测短文本对的相似 度。 解决短文本相似度匹配中关键信息捕获无 力、 一词多义现象导 致的准确性较低的问题。 权利要求书2页 说明书5页 附图1页 CN 114528831 A 2022.05.24 CN 114528831 A 1.一种基于关键词的短文本相似度预测方法, 其特 征在于, 包括以下步骤: S1: 构建关键词库; S2: 短文本对关键信息提取, 构建 关键信息 权重向量; S3: 融合关键信息的语义特 征提取提取; S4: 基于分类网络进行短文本对相似度预测。 2.根据权利要求1所述的方法, 其特 征在于, 所述步骤S1中, 关键词库包括: 共线关键词、 高频关键词、 自定义关键词。 3.根据权利要求2所述的方法, 其特 征在于, 步骤S1具体步骤如下: (1)输入数据集中全部的短文本对; (2)对短文本进行分词、 去停用词并统计词频, 取词性为名词的高频词作为高频关键 词; 对于特定领域的相似度对比任务, 用户可手动添加领域词语作为核心词 库, 该部分关键 词记为自定义关键词; (3)取标签label值为1的短文本对, 分别对短文本对进行分词和词性标注, 取词性为名 词且同时出现在短文本对的词语作为共线关键词; (4)关键词库为高频关键词、 共线关键词、 自定义关键词中所有词语的集合, 记为 words_ban k; 至此, 完成关键词库的构建。 4.根据权利要求3所述的方法, 其特 征在于, 所述步骤S2中, 包括: S21: 文本对关键信息由词库关键词信息、 关联关键词信息、 文本对共线信息、 非关键信 息构成; S22: 不同的关键信息采用不同的权重的进行表示, 其中权重的大小关系: 词库关键词 信息>文本对 共线信息>关联关键词信息>非关键信息 。 5.根据权利要求 4所述的方法, 其特 征在于, 步骤S2具体步骤如下: (1)输入短文本对; (2)初始化关键信息权重向量, 为短文本 中每一个字设置一个关键信息权重, 初始权重 为0; (3)对短文本对进行分词及词性标注, 遍历分词结果, 校验各个分词是否位于words_ bank, 如果存在, 则认为该 条短文本包 含关键信息, 将该关键词的对应的权 重向量置为1; (4)进一步的对关键信息进行扩充, 在该词的邻域内, 查找相邻的名词或动词, 将其也 设置为关键词, 记为关联关键词; (5)对于有关键信息的文本, 为 其非关键信息设置一个更低的权 重; (6)比对短文本对的共线词(共同出现的词语), 如果存在共线词, 那么该词的权重置为 1; (7)如果在短文本对中并没有找到任何关键词, 那么将此句的关键信息权重矩阵全部 设置为1, 即使用该短句的全部信息作为关键信息, 以防止由于 关键词库构 造不完备时导致权 利 要 求 书 1/2 页 2 CN 114528831 A 2短文本中无法提取关键内容; 至此得到了预测模型的输入, 并将两个短文对拼接, 添加cls和sep标志位: 拼接后的短文本对记为pair。 6.根据权利要求5所述的方法, 其特 征在于, 所述步骤S3中, 包括: S31: 基于t ransformer单 元, 对文本对进行语义特 征提取; S32: transformer单元中融合关键信息权重矩阵, 对语义特征信息进行关键信息融合, 作为最终提取的语义向量。 7.根据权利要求6所述的方法, 其特 征在于, 步骤S3具体步骤如下: (1)输入拼接后的短文本对: pair (2)对文本对进行嵌入表示(词嵌入、 句嵌入、 位置嵌入), 记为: Epair; (3)基于transfor mer单元, 对短文本对进行语义特征提取, 一个trans former单元包括 以下步骤: 自注意力计算, FFN; 此处为NLP常用技术不再赘述, 得到特征向量, 记为 featurepair, 其流程描述为: featurepair=trans(Epair) 其中trans()表示 一个transformer单 元; (4)重复步骤(3), 基于transformer单元对特征进行多次提取, 获取深层特征, 用户可 基于自己的数据集大小, 设置特 征提取的次数; (5)基于文本对的关键信息 权重矩阵, 对featurepair进行关键信息融合。 8.根据权利要求7 所述的方法, 其特 征在于, 融合处理步骤为: 第一步: 输入featurepair和key_ar r 第二步: 计算featurepair中各个字符与其 他字符的自注意力权 重, 记为at tself 第三步: 计算融合关键信息的自注意力得分, 记为score, 其计算公式入如: 其中 表示向量对应位置相乘。 第四步: 计算特 征向量, 其计算公式如下: featureoutput=FFN(featurepair*score) 其中FFN表示transformer的fe ed‑forward network结构。 9.根据权利要求8所述的方法, 其特 征在于, 步骤S4: 构建 分类网络, 完成相似度预测 (1)输入featureoutput, 取featureoutput第一维度作为最终的分类特征向量, 即cls位置, 该位置包 含了整个文本对的语义信息; (2)构建分类网络, 用户可以基于深度学习, 构建任意网络结构作为分类网络; (3)以上模型 经过训练之后, 输入一个短文本对即可 预测该短文本对的相似度。权 利 要 求 书 2/2 页 3 CN 114528831 A 3
专利 一种基于关键词的短文本相似度预测方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:35
上传分享
举报
下载
原文档
(345.1 KB)
分享
友情链接
GB-T 37416-2019 洁净机器人通用技术条件.pdf
GB-T 4352-2022 载货汽车运行燃料消耗量.pdf
GB-T 26698-2022 考试用铅笔和涂卡专用笔.pdf
GB-T 42147-2022 政府网站网页电子文件元数据.pdf
DB3310-T 76-2021 塑料原料数字化仓储系统建设与管理规范 台州市.pdf
绿盟 SecXOps安全智能分析技术白皮书.pdf
GB-T 34945-2017 信息技术 数据溯源描述模型.pdf
T-CEC 677—2022 电化学储能电站接入电网继电保护配置技术条件.pdf
GB-T 22264.5-2008 安装式数字显示电测量仪表 第5部分:相位表和功率因数表的特殊要求.pdf
YD-T 4316-2023 面向智慧城市应用的人工智能服务能力开放技术要求.pdf
GB-T 23011-2022 信息化和工业化融合 数字化转型 价值效益参考模型.pdf
华为 数据治理之旅.pdf
T-CBJ 3201—2019 工坊啤酒及其生产规范.pdf
T-GZBC 36—2020 广东省健康医疗数据脱敏技术规范.pdf
TTAF 044-2019 Android应用质量技术要求及评分细则.pdf
GB-T 42368-2023 高温高压条件下可燃气体 蒸气 爆炸极限测定方法.pdf
GB-T 30283-2022 信息安全技术 信息安全服务分类与代码.pdf
DB51-T 2799-2021 四川省高速公路景观及绿化设计指南 四川省.pdf
GB 19415-2013 单端荧光灯能效限定值及节能评价值.pdf
T-GCHA 1.5—2018 定制家居产品 人造板定制衣柜 第5部分:客户服务规范.pdf
1
/
9
评价文档
赞助2.5元 点击下载(345.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。