专利 一种基于多层编码网络的谣言检测方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210025558.X (22)申请日 2022.01.11 (71)申请人南京邮电大学地址 210003 江苏省南京市鼓楼区新模范马路66号 (72)发明人林佳　刘慧　韦苏美　王玉峰　 (74)专利代理机构南京纵横知识产权代理有限公司 32224 代理人董建林 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/247(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称一种基于多层编码网络的谣言检测方法及系统 (57)摘要本发明公开了一种基于多层编码网络的谣言检测方法及系统，属于自然语言处理领域，包括：获取所有待检测的文本，对文本进行预处理；将带有标记词汇表的词片嵌入预处理后的文本，将文本中单词转换为token标记词，然后进行向量编码得到各文本对应的词向量；对所有词向量进行处理得到输入向量；将输入向量输入预训练好的多层编码网络中，生成输出向量；将输出向量进行处理得到隐藏状态向量；将隐藏状态向量送入隐藏层和分类器，得到待检测文本被检测为各谣言类别的概率，概率最大的类别为该文本的检测结果；有效缓解了训练速度慢、效果差等问题，实现对词语和句子级别信息的学习，有利于提取不同文本之间的关系表示，提高了谣言检测的准确性。权利要求书2页说明书7页附图2页 CN 114328843 A 2022.04.12 CN 114328843 A 1.一种基于多层编码网络的谣言检测方法，其特征在于，包括：获取所有待检测的文本，对文本进行预处理；将带有标记词汇表的词片嵌入预处理后的文本，将文本中单词转换为token标记词，然后进行向量编码得到各文本对应的词向量；对所有词向量进行处理得到输入向量；将输入向量输入预训练好的多层编码网络中，生成输出向量；将输出向量进行处理得到隐藏状态向量；将隐藏状态向量送入隐藏层和分类器，得到待检测文本被检测为各谣言类别的概率，概率最大的类别为该文本的检测结果。 2.根据权利要求1所述的一种基于多层编码网络的谣言检测方法，其特征在于，所述待检测的文本数量为两条。 3.根据权利要求1所述的一种基于多层编码网络的谣言检测方法，其特征在于，对文本进行预处理的方法包括：将待检测的文本去除标点符号和特殊字符，并将所有字符转换为小写，得到预处理后的文本。 4.根据权利要求1所述的一种基于多层编码网络的谣言检测方法，其特征在于，对所有词向量进行处理得到输入向量的方法包括：在第一条词向量的首部和两条词向量之间添加标志位，将多条词向量进行分隔后合并多条词向量，再将其与位置向量、各词向量对应的分段向量逐位纵向拼接，得到输入向量。 5.根据权利要求4所述的一种基于多层编码网络的谣言检测方法，其特征在于，将输入向量输入预训练好的多层编码网络中，生成输出向量，包括如下步骤：将输入向量送入编码网络，每一层编码网络都包含注意力机制与层归一化网络，得到多个自注意力网络输出并将其拼接为一条向量并降维输出，然后将该向量与输入向量进行残差连接，并经过层归一化和两次线性转换，得到与输入向量长度相同的第一输出向量；将第一输出向量送入相同结构的下一层编码网络重复上述步骤，直至最后一层编码网络，得到最终的输出向量，该输出向量由表示标志位对应位置输出的标志位表征向量、表示各文本对应位置输出的各文本表征向量组成。 6.根据权利要求5所述的一种基于多层编码网络的谣言检测方法，其特征在于，将输出向量进行处理得到隐藏状态向量的方法包括：将标志位表征向量激活并送入全连接层，将各文本表征向量分别加和平均再激活后各自送入对应的全连接层，得到多个初级隐藏状态向量，将初级隐藏状态向量进行拼接得到隐藏状态向量。 7.根据权利要求1所述的一种基于多层编码网络的谣言检测方法，其特征在于，将隐藏状态向量送入隐藏层和分类器，得到待检测文本被检测为各谣言类别的概率，包括如下步骤：将隐藏状态向量送入隐藏层，经过隐藏层的非线性激活函数处理，输出隐藏输出向量；将隐藏输出向量送入softmax回归分类器，得到待检测文本被检测为各谣言类别的概率： O＝softmax(ZWo+bo)权　利　要　求　书 1/2 页 2 CN 114328843 A 2其中， Z是隐藏输出向量， Wo是隐藏层和分类器质检的连接权重， bo是c维向量偏置。 8.根据权利要求1所述的一种基于多层编码网络的谣言检测方法，其特征在于，所述谣言类别包括真实谣言、虚假谣言和真实性未经验证谣言。 9.根据权利要求1所述的一种基于多层编码网络的谣言检测方法，其特征在于，所述标记词汇表通过Subw ord算法建立。 10.一种基于多层编码网络的谣言检测系统，其特征在于，包括：文本预处理模块：用于获取所有待检测的文本，对文本进行预处理；向量编码模块：用于将带有标记词汇表的词片嵌入预处理后的文本，将文本中单词转换为token标记词，然后进行向量编码得到各文本对应的词向量；输入向量获取模块：用于对所有词向量进行处理得到输入向量；语义学习模块：用于将输入向量输入预训练好的多层编码网络中，生成输出向量；隐藏状态向量获取模块：用于将输出向量进行处理得到隐藏状态向量；检测模块：用于将隐藏状态向量送入隐藏层和分类器，得到待检测文本被检测为各谣言类别的概率，概率最大的类别为该文本的检测结果。权　利　要　求　书 2/2 页 3 CN 114328843 A 3

专利 一种基于多层编码网络的谣言检测方法及系统

专利一种基于多层编码网络的谣言检测方法及系统