standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210136839.2 (22)申请日 2022.02.15 (71)申请人 浪潮云信息技 术股份公司 地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园S01号楼 (72)发明人 伊文超 朱利霞 何彬彬 李明明  潘心冰  (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 阚恭勇 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于关键词的短文本相似度预测方法 (57)摘要 本发明提供一种基于关键词的短文本相似 度预测方法, 属于自然语言处理技领域, 首先, 提 取短文本数据中的核心内容, 构建关键词库; 其 次, 短文本对关键内容提取, 基于关键词库, 扩充 短文对的关键信息, 构造关键信息权重向量; 再 次, 短文本对语义特征提取并融合关键信息, 基 于transformer单元, 关联短文本对的上下文语 义信息, 并利用关键信息权重向量, 使注意力机 制重点关注于关键信息, 减少无用信息对结果的 干扰; 最后, 基于分类网络, 预测短文本对的相似 度。 解决短文本相似度匹配中关键信息捕获无 力、 一词多义现象导 致的准确性较低的问题。 权利要求书2页 说明书5页 附图1页 CN 114528831 A 2022.05.24 CN 114528831 A 1.一种基于关键词的短文本相似度预测方法, 其特 征在于, 包括以下步骤: S1: 构建关键词库; S2: 短文本对关键信息提取, 构建 关键信息 权重向量; S3: 融合关键信息的语义特 征提取提取; S4: 基于分类网络进行短文本对相似度预测。 2.根据权利要求1所述的方法, 其特 征在于, 所述步骤S1中, 关键词库包括: 共线关键词、 高频关键词、 自定义关键词。 3.根据权利要求2所述的方法, 其特 征在于, 步骤S1具体步骤如下: (1)输入数据集中全部的短文本对; (2)对短文本进行分词、 去停用词并统计词频, 取词性为名词的高频词作为高频关键 词; 对于特定领域的相似度对比任务, 用户可手动添加领域词语作为核心词 库, 该部分关键 词记为自定义关键词; (3)取标签label值为1的短文本对, 分别对短文本对进行分词和词性标注, 取词性为名 词且同时出现在短文本对的词语作为共线关键词; (4)关键词库为高频关键词、 共线关键词、 自定义关键词中所有词语的集合, 记为 words_ban k; 至此, 完成关键词库的构建。 4.根据权利要求3所述的方法, 其特 征在于, 所述步骤S2中, 包括: S21: 文本对关键信息由词库关键词信息、 关联关键词信息、 文本对共线信息、 非关键信 息构成; S22: 不同的关键信息采用不同的权重的进行表示, 其中权重的大小关系: 词库关键词 信息>文本对 共线信息>关联关键词信息>非关键信息 。 5.根据权利要求 4所述的方法, 其特 征在于, 步骤S2具体步骤如下: (1)输入短文本对; (2)初始化关键信息权重向量, 为短文本 中每一个字设置一个关键信息权重, 初始权重 为0; (3)对短文本对进行分词及词性标注, 遍历分词结果, 校验各个分词是否位于words_ bank, 如果存在, 则认为该 条短文本包 含关键信息, 将该关键词的对应的权 重向量置为1; (4)进一步的对关键信息进行扩充, 在该词的邻域内, 查找相邻的名词或动词, 将其也 设置为关键词, 记为关联关键词; (5)对于有关键信息的文本, 为 其非关键信息设置一个更低的权 重; (6)比对短文本对的共线词(共同出现的词语), 如果存在共线词, 那么该词的权重置为 1; (7)如果在短文本对中并没有找到任何关键词, 那么将此句的关键信息权重矩阵全部 设置为1, 即使用该短句的全部信息作为关键信息, 以防止由于 关键词库构 造不完备时导致权 利 要 求 书 1/2 页 2 CN 114528831 A 2短文本中无法提取关键内容; 至此得到了预测模型的输入, 并将两个短文对拼接, 添加cls和sep标志位: 拼接后的短文本对记为pair。 6.根据权利要求5所述的方法, 其特 征在于, 所述步骤S3中, 包括: S31: 基于t ransformer单 元, 对文本对进行语义特 征提取; S32: transformer单元中融合关键信息权重矩阵, 对语义特征信息进行关键信息融合, 作为最终提取的语义向量。 7.根据权利要求6所述的方法, 其特 征在于, 步骤S3具体步骤如下: (1)输入拼接后的短文本对: pair (2)对文本对进行嵌入表示(词嵌入、 句嵌入、 位置嵌入), 记为: Epair; (3)基于transfor mer单元, 对短文本对进行语义特征提取, 一个trans former单元包括 以下步骤: 自注意力计算, FFN; 此处为NLP常用技术不再赘述, 得到特征向量, 记为 featurepair, 其流程描述为: featurepair=trans(Epair) 其中trans()表示 一个transformer单 元; (4)重复步骤(3), 基于transformer单元对特征进行多次提取, 获取深层特征, 用户可 基于自己的数据集大小, 设置特 征提取的次数; (5)基于文本对的关键信息 权重矩阵, 对featurepair进行关键信息融合。 8.根据权利要求7 所述的方法, 其特 征在于, 融合处理步骤为: 第一步: 输入featurepair和key_ar r 第二步: 计算featurepair中各个字符与其 他字符的自注意力权 重, 记为at tself 第三步: 计算融合关键信息的自注意力得分, 记为score, 其计算公式入如: 其中 表示向量对应位置相乘。 第四步: 计算特 征向量, 其计算公式如下: featureoutput=FFN(featurepair*score) 其中FFN表示transformer的fe ed‑forward network结构。 9.根据权利要求8所述的方法, 其特 征在于, 步骤S4: 构建 分类网络, 完成相似度预测 (1)输入featureoutput, 取featureoutput第一维度作为最终的分类特征向量, 即cls位置, 该位置包 含了整个文本对的语义信息; (2)构建分类网络, 用户可以基于深度学习, 构建任意网络结构作为分类网络; (3)以上模型 经过训练之后, 输入一个短文本对即可 预测该短文本对的相似度。权 利 要 求 书 2/2 页 3 CN 114528831 A 3

PDF文档 专利 一种基于关键词的短文本相似度预测方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于关键词的短文本相似度预测方法 第 1 页 专利 一种基于关键词的短文本相似度预测方法 第 2 页 专利 一种基于关键词的短文本相似度预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:35上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。