专利 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210094494.9 (22)申请日 2022.01.26 (71)申请人西北大学地址 710069 陕西省西安市太白北路2 29号 (72)发明人孙霞　邓瑶　黄立　张梦延　陈嘉诚　 (74)专利代理机构西安恒泰知识产权代理事务所 61216 专利代理师李郑建 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法 (57)摘要本发明公开了一种基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法，对于两个文本P和 Q，借助Word2vec、 BiLSTM、距离感知自注意力机制以及多角度相建模完成文本相似度计算，首先使用Word2ve得到文本P和 Q的词表示，通过BiLS TM捕获上下文表示；然后利用距离感知的自注意力机制来进一步抽取文本特征，接着利用交互注意力机制来对文本P和Q进行交互建模，最后再提出多角度相似度建模的方法从不同层面对文本P和Q进行相似度建模，得到最终相似度。本发明通过基于距离感知的自注意力机制和多角度相似度建模架构，增强了对文本语义建模的能力，提高了文本对相似度计算的准确率，模型结构简单、性能高效、鲁棒性强，易于在实践中推广使用。权利要求书4页说明书9页附图3页 CN 114595306 A 2022.06.07 CN 114595306 A 1.一种基于距离感知自注意力机制和多角度建模的文本相似度计算系统，其特征在于，至少包括依次相连的词表示模块、上下文表示模块、增强语义建模模块、软对齐模块、多角度相似性建模模块和相似度结果输出模块，其中：词表示模块：用于输入文本P和Q，得到预处理后的文本对<P， Q>，接着使用预先训练的词嵌入得到文本对<P， Q>通过中每个词的词向量，并且进一步融合字符嵌入和精确匹配标记特征；所述的词表示模块中的文本预处理和词训练的实现方法是：首先对原始的文本P和Q进行分词、去除停用词，得到预处理后的文本对<P， Q>；接着使用Word2vec算法训练预处理得到文本P和Q的词向量矩阵，为了使得词向量特征丰富，同时融合字符嵌入表示和精确匹配标记特征；上下文表示模块：用于对文本对<P， Q>中每个词的词向量进行上下文编码，得到<P， Q> 编码后的上下文表示向量；构建方法是：对于词嵌入表示得到的文本对<P， Q>，将其送入双层BiLSTM网络中进行上下文编码，得到文本对<P， Q>的上下文表示< hp， hq>；增强语义建模模块：用于分别对文本P和Q建模，抽取出文本P和Q的更深层次的语义特征；构建方法是：以基于距离感知自注意力机制Distance ‑aware Self‑attention，来对上下文建模后的表示<hp， hq>进一步抽取更深层次的语义特征，建模后的特征向量表示为软对齐模块：用于建模文本对<P， Q>之间的交互信息，对两个文本的语义向量进行增强表示；构建方法是：在抽取增强语义表示的同时，对文本对<P， Q>使用交互注意力机制Co ‑ attention来计算两个文本之间的软对齐关系，抽取得到的对齐后的特征为<h′p， h′q>；多角度相似性建模模块：用于从多个不同角度对文本P和Q的语义向量进行相似度计算；构建方法是：首先融合软对齐和增强语义建模特征得到<vp,vq>，接着同时利用逐元素相似度、双线性距离以及余弦相似度计算特征向量<vp,vq>之间的多角度聚合向量v；相似度结果输出模块：用于将文本对<P， Q>多角度相似性建模后的聚合向量经过池化操作，再得到最终的相似度分数，最后将文本对的相似度数值转换为具体的分数输出；构建方法是：首先融合软对齐和增强语义建模特征得到<vp， vq>，接着同时利用逐元素相似度、双线性距离以及余弦相似度计算特征向量<vp,vq>之间的多角度聚合向量v。 2.如权利要求1所述基于距离感知自注意力机制和多角度建模的文本相似度计算系统，其特征在于，所述的相似度结果输出模块，将多角度聚合向量v进行最大池化和平均池化得到池化后的向量vavg和vmax，最后拼接后送入全连接层和softmax层得到最终文本对<P， Q>的相似度分数，再转换为具体的分数输出。 3.一种基于距离感知自注意力机制和多角度建模的文本相似度计算方法，包括如下步骤：步骤S1：对文本P和Q分别进行预处理，接着对预处理后的文本对<P， Q>通过Word2vec算权　利　要　求　书 1/4 页 2 CN 114595306 A 2法预训练得到词嵌入后加入字符嵌入和精确匹配标记，得到最终的词表示；步骤S2：将词嵌入表示后的文本对<P， Q>利用双层BiLSTM进行编码，得到文本对<P， Q> 的上下文表示；步骤S3：使用距离感知自注意力机制Distance ‑aware Self‑attention对文本P和Q分别编码，捕获文本P和Q的深层次特征，进而得到文本对<P， Q>增强的语义向量表示；步骤S4：使用交互注意力机制Co ‑attention对文本P和Q建模，捕获文本P和Q之间的交互信息；步骤S5：利用多角度相似性建模算法，同时利用逐元素相似度、双线性距离以及余弦相似度从多个不同的角度计算增强特征向量之间的相似度，得到多角度相似度聚合向量；步骤S6：将多角度相似度聚合向量进行最大池化和平均池化，抽取出关键特征，再送入到全连接层和softmax中计算最终的相似度分值，最终转换为具体的相似度分数并输出。 4.如权利要求3所述的方法，其特征在于：所述的步骤S1进一步包含以下四个步骤：步骤S1.1：首先采用Jieba分词工具对文本对<P， Q>进行分词，再去除停用词；步骤S1.2：接着对预处理后的文本对采用Word2vec算法预训练得到300维单词 ‑向量矩阵，获得每个单词到 300维词向量的映射，记为ew；步骤S1.3：将随机初始化的字符嵌入送入RNN中来学习字符嵌入ec，字符特征ec可以为某些OOV单词提供额外信息；步骤S1.4：加入精确匹配标记特征f，如果在另一个句子中找到相同的单词，则完全匹配标志f将被激活，精确匹配标记帮助理解文本；最终文本对＜P， Q＞的词表示分别表示为＜pw， qw＞；公式如下： 5.如权利要求3所述的方法，其特征在于：所述的步骤S2使用BiLSTM 网络对两个输入的文本对＜P， Q＞进行编码， BiLSTM可以提取句子的上下文特征并可以存储长距离信息，为简化模型，仅使用两层BiLSTM编码句子并共享参数，得到文本对＜P， Q＞的上下文表示＜hp， hq ＞；公式如下： 6.如权利要求3所述的方法，其特征在于：所述步骤S3的具体实现进一步包含以下三个步骤：步骤S3.1：采用多维 “token2token ”自我注意机制Self ‑attention分别对文本P和Q进行编码，捕获文本P和Q中每个词的上下文信息；对于P或Q的上下文表示h＝[h1， h2， ...， hl]， h指的是两层BiLSTM编码得到的上下文表示， hi表示的是BiLSTM在时间i上输入句子所生成的隐藏状态，自我注意机制Self ‑ attention对上下文表示h进行编码得到增强后的表示h ′；公式如下：权　利　要　求　书 2/4 页 3 CN 114595306 A 3

专利 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法

专利基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法