standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210025558.X (22)申请日 2022.01.11 (71)申请人 南京邮电大 学 地址 210003 江苏省南京市 鼓楼区新模范 马路66号 (72)发明人 林佳 刘慧 韦苏美 王玉峰  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 代理人 董建林 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/247(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 一种基于多层编码网络的谣言检测方法及 系统 (57)摘要 本发明公开了一种基于多层编码网络的谣 言检测方法及系统, 属于自然语言处理领域, 包 括: 获取所有待检测的文本, 对文本进行预处理; 将带有标记词汇表的词片嵌入预处理后的文本, 将文本中单词转换为token标记词, 然后进行向 量编码得到各文本对应的词向量; 对 所有词向量 进行处理得到输入向量; 将输入向量输入预训练 好的多层编码网络中, 生成输出向量; 将输出向 量进行处理得到隐藏状态向量; 将隐藏状态向量 送入隐藏层和分类器, 得到待检测文本被检测为 各谣言类别的概率, 概率最大的类别为该文本的 检测结果; 有效缓解了训练速度慢、 效果差等问 题, 实现对词语和句子级别信息的学习, 有利于 提取不同文本之间的关系表示, 提高了谣言检测 的准确性。 权利要求书2页 说明书7页 附图2页 CN 114328843 A 2022.04.12 CN 114328843 A 1.一种基于多层编码网络的谣言检测方法, 其特 征在于, 包括: 获取所有待检测的文本, 对文本进行 预处理; 将带有标记词 汇表的词片嵌入预处理后的文本, 将文本中单词转换为token标记词, 然 后进行向量编码得到各文本对应的词向量; 对所有词向量进行处 理得到输入向量; 将输入向量输入预训练好的多层编码网络中, 生成输出向量; 将输出向量进行处 理得到隐藏状态向量; 将隐藏状态向量送入隐藏层和分类器, 得到待检测文本被检测为各谣言类别的概率, 概率最大的类别为该文本的检测结果。 2.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 所述待 检测的文本数量 为两条。 3.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 对文本 进行预处理的方法包括: 将待检测的文本去 除标点符号和特殊字符, 并将所有字符转换为小写, 得到预处理后 的文本。 4.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 对所有 词向量进行处 理得到输入向量的方法包括: 在第一条词向量的首部和两条词向量之间添加标志位, 将多条词向量进行分隔后合并 多条词向量, 再将其与位置向量、 各词向量对应的分段向量逐位纵向拼接, 得到 输入向量。 5.根据权利要求4所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 将输入 向量输入预训练好的多层编码网络中, 生成输出向量, 包括如下步骤: 将输入向量送入编码网络, 每一层编码网络都包含注意力机制与层归一化网络, 得到 多个自注意力网络输出并将其拼接为一条向量并降维输出, 然后 将该向量与输入向量进 行 残差连接, 并经 过层归一 化和两次线性 转换, 得到与输入向量长度相同的第一输出向量; 将第一输出向量送入相同结构的下一层编码网络重复上述步骤, 直至最后 一层编码网 络, 得到最 终的输出向量, 该输出向量由表示标志 位对应位置输出的标志位表征向量、 表 示 各文本对应位置 输出的各文本表征向量组成。 6.根据权利要求5所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 将输出 向量进行处 理得到隐藏状态向量的方法包括: 将标志位表征向量激活并送入全连接层, 将各文本表征向量分别加和平均 再激活后各 自送入对应的全连接层, 得到多个初级隐藏状态向量, 将初级隐藏状态向量进行拼接得到 隐藏状态向量。 7.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 将隐藏 状态向量送入隐藏层和分类器, 得到待检测文本被检测为各谣言类别的概率, 包括如下步 骤: 将隐藏状态向量送入隐藏层, 经 过隐藏层的非线性激活函数处 理, 输出隐藏输出向量; 将隐藏输出向量送入softmax回归分类器, 得到待检测文本被检测为各谣言类别的概 率: O=softmax(ZWo+bo)权 利 要 求 书 1/2 页 2 CN 114328843 A 2其中, Z是隐藏输出向量, Wo是隐藏层和分类 器质检的连接 权重, bo是c维向量偏置 。 8.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 所述谣 言类别包括真实谣言、 虚假谣言和真实性未 经验证谣言。 9.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 所述标 记词汇表通过Subw ord算法建立。 10.一种基于多层编码网络的谣言检测系统, 其特 征在于, 包括: 文本预处 理模块: 用于获取 所有待检测的文本, 对文本进行 预处理; 向量编码模块: 用于将带有标记词汇表的词片嵌入预处理后的文本, 将文本中单词转 换为token标记词, 然后进行向量编码得到各文本对应的词向量; 输入向量获取模块: 用于对所有词向量进行处 理得到输入向量; 语义学习模块: 用于将输入向量输入预训练好的多层编码网络中, 生成输出向量; 隐藏状态向量获取模块: 用于将输出向量进行处 理得到隐藏状态向量; 检测模块: 用于将隐藏状态向量送入隐藏层和分类器, 得到待检测文本被检测为各谣 言类别的概 率, 概率最大的类别为该文本的检测结果。权 利 要 求 书 2/2 页 3 CN 114328843 A 3

PDF文档 专利 一种基于多层编码网络的谣言检测方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多层编码网络的谣言检测方法及系统 第 1 页 专利 一种基于多层编码网络的谣言检测方法及系统 第 2 页 专利 一种基于多层编码网络的谣言检测方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:58上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。