专利 一种基于关键词的短文本相似度预测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210136839.2 (22)申请日 2022.02.15 (71)申请人浪潮云信息技术股份公司地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园S01号楼 (72)发明人伊文超　朱利霞　何彬彬　李明明　潘心冰　 (74)专利代理机构济南信达专利事务所有限公司 37100 专利代理师阚恭勇 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称一种基于关键词的短文本相似度预测方法 (57)摘要本发明提供一种基于关键词的短文本相似度预测方法，属于自然语言处理技领域，首先，提取短文本数据中的核心内容，构建关键词库；其次，短文本对关键内容提取，基于关键词库，扩充短文对的关键信息，构造关键信息权重向量；再次，短文本对语义特征提取并融合关键信息，基于transformer单元，关联短文本对的上下文语义信息，并利用关键信息权重向量，使注意力机制重点关注于关键信息，减少无用信息对结果的干扰；最后，基于分类网络，预测短文本对的相似度。解决短文本相似度匹配中关键信息捕获无力、一词多义现象导致的准确性较低的问题。权利要求书2页说明书5页附图1页 CN 114528831 A 2022.05.24 CN 114528831 A 1.一种基于关键词的短文本相似度预测方法，其特征在于，包括以下步骤： S1：构建关键词库； S2：短文本对关键信息提取，构建关键信息权重向量； S3：融合关键信息的语义特征提取提取； S4：基于分类网络进行短文本对相似度预测。 2.根据权利要求1所述的方法，其特征在于，所述步骤S1中，关键词库包括：共线关键词、高频关键词、自定义关键词。 3.根据权利要求2所述的方法，其特征在于，步骤S1具体步骤如下： (1)输入数据集中全部的短文本对； (2)对短文本进行分词、去停用词并统计词频，取词性为名词的高频词作为高频关键词；对于特定领域的相似度对比任务，用户可手动添加领域词语作为核心词库，该部分关键词记为自定义关键词； (3)取标签label值为1的短文本对，分别对短文本对进行分词和词性标注，取词性为名词且同时出现在短文本对的词语作为共线关键词； (4)关键词库为高频关键词、共线关键词、自定义关键词中所有词语的集合，记为 words_ban k；至此，完成关键词库的构建。 4.根据权利要求3所述的方法，其特征在于，所述步骤S2中，包括： S21：文本对关键信息由词库关键词信息、关联关键词信息、文本对共线信息、非关键信息构成； S22：不同的关键信息采用不同的权重的进行表示，其中权重的大小关系：词库关键词信息>文本对共线信息>关联关键词信息>非关键信息。 5.根据权利要求 4所述的方法，其特征在于，步骤S2具体步骤如下： (1)输入短文本对； (2)初始化关键信息权重向量，为短文本中每一个字设置一个关键信息权重，初始权重为0； (3)对短文本对进行分词及词性标注，遍历分词结果，校验各个分词是否位于words_ bank，如果存在，则认为该条短文本包含关键信息，将该关键词的对应的权重向量置为1； (4)进一步的对关键信息进行扩充，在该词的邻域内，查找相邻的名词或动词，将其也设置为关键词，记为关联关键词； (5)对于有关键信息的文本，为其非关键信息设置一个更低的权重； (6)比对短文本对的共线词(共同出现的词语)，如果存在共线词，那么该词的权重置为 1； (7)如果在短文本对中并没有找到任何关键词，那么将此句的关键信息权重矩阵全部设置为1，即使用该短句的全部信息作为关键信息，以防止由于关键词库构造不完备时导致权　利　要　求　书 1/2 页 2 CN 114528831 A 2短文本中无法提取关键内容；至此得到了预测模型的输入，并将两个短文对拼接，添加cls和sep标志位：拼接后的短文本对记为pair。 6.根据权利要求5所述的方法，其特征在于，所述步骤S3中，包括： S31：基于t ransformer单元，对文本对进行语义特征提取； S32： transformer单元中融合关键信息权重矩阵，对语义特征信息进行关键信息融合，作为最终提取的语义向量。 7.根据权利要求6所述的方法，其特征在于，步骤S3具体步骤如下： (1)输入拼接后的短文本对： pair (2)对文本对进行嵌入表示(词嵌入、句嵌入、位置嵌入)，记为： Epair； (3)基于transfor mer单元，对短文本对进行语义特征提取，一个trans former单元包括以下步骤：自注意力计算， FFN；此处为NLP常用技术不再赘述，得到特征向量，记为 featurepair，其流程描述为： featurepair＝trans(Epair) 其中trans()表示一个transformer单元； (4)重复步骤(3)，基于transformer单元对特征进行多次提取，获取深层特征，用户可基于自己的数据集大小，设置特征提取的次数； (5)基于文本对的关键信息权重矩阵，对featurepair进行关键信息融合。 8.根据权利要求7 所述的方法，其特征在于，融合处理步骤为：第一步：输入featurepair和key_ar r 第二步：计算featurepair中各个字符与其他字符的自注意力权重，记为at tself 第三步：计算融合关键信息的自注意力得分，记为score，其计算公式入如：其中表示向量对应位置相乘。第四步：计算特征向量，其计算公式如下： featureoutput＝FFN(featurepair*score) 其中FFN表示transformer的fe ed‑forward network结构。 9.根据权利要求8所述的方法，其特征在于，步骤S4：构建分类网络，完成相似度预测 (1)输入featureoutput，取featureoutput第一维度作为最终的分类特征向量，即cls位置，该位置包含了整个文本对的语义信息； (2)构建分类网络，用户可以基于深度学习，构建任意网络结构作为分类网络； (3)以上模型经过训练之后，输入一个短文本对即可预测该短文本对的相似度。权　利　要　求　书 2/2 页 3 CN 114528831 A 3

专利 一种基于关键词的短文本相似度预测方法

专利一种基于关键词的短文本相似度预测方法