standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210025558.X (22)申请日 2022.01.11 (71)申请人 南京邮电大 学 地址 210003 江苏省南京市 鼓楼区新模范 马路66号 (72)发明人 林佳 刘慧 韦苏美 王玉峰 (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 代理人 董建林 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/247(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 一种基于多层编码网络的谣言检测方法及 系统 (57)摘要 本发明公开了一种基于多层编码网络的谣 言检测方法及系统, 属于自然语言处理领域, 包 括: 获取所有待检测的文本, 对文本进行预处理; 将带有标记词汇表的词片嵌入预处理后的文本, 将文本中单词转换为token标记词, 然后进行向 量编码得到各文本对应的词向量; 对 所有词向量 进行处理得到输入向量; 将输入向量输入预训练 好的多层编码网络中, 生成输出向量; 将输出向 量进行处理得到隐藏状态向量; 将隐藏状态向量 送入隐藏层和分类器, 得到待检测文本被检测为 各谣言类别的概率, 概率最大的类别为该文本的 检测结果; 有效缓解了训练速度慢、 效果差等问 题, 实现对词语和句子级别信息的学习, 有利于 提取不同文本之间的关系表示, 提高了谣言检测 的准确性。 权利要求书2页 说明书7页 附图2页 CN 114328843 A 2022.04.12 CN 114328843 A 1.一种基于多层编码网络的谣言检测方法, 其特 征在于, 包括: 获取所有待检测的文本, 对文本进行 预处理; 将带有标记词 汇表的词片嵌入预处理后的文本, 将文本中单词转换为token标记词, 然 后进行向量编码得到各文本对应的词向量; 对所有词向量进行处 理得到输入向量; 将输入向量输入预训练好的多层编码网络中, 生成输出向量; 将输出向量进行处 理得到隐藏状态向量; 将隐藏状态向量送入隐藏层和分类器, 得到待检测文本被检测为各谣言类别的概率, 概率最大的类别为该文本的检测结果。 2.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 所述待 检测的文本数量 为两条。 3.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 对文本 进行预处理的方法包括: 将待检测的文本去 除标点符号和特殊字符, 并将所有字符转换为小写, 得到预处理后 的文本。 4.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 对所有 词向量进行处 理得到输入向量的方法包括: 在第一条词向量的首部和两条词向量之间添加标志位, 将多条词向量进行分隔后合并 多条词向量, 再将其与位置向量、 各词向量对应的分段向量逐位纵向拼接, 得到 输入向量。 5.根据权利要求4所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 将输入 向量输入预训练好的多层编码网络中, 生成输出向量, 包括如下步骤: 将输入向量送入编码网络, 每一层编码网络都包含注意力机制与层归一化网络, 得到 多个自注意力网络输出并将其拼接为一条向量并降维输出, 然后 将该向量与输入向量进 行 残差连接, 并经 过层归一 化和两次线性 转换, 得到与输入向量长度相同的第一输出向量; 将第一输出向量送入相同结构的下一层编码网络重复上述步骤, 直至最后 一层编码网 络, 得到最 终的输出向量, 该输出向量由表示标志 位对应位置输出的标志位表征向量、 表 示 各文本对应位置 输出的各文本表征向量组成。 6.根据权利要求5所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 将输出 向量进行处 理得到隐藏状态向量的方法包括: 将标志位表征向量激活并送入全连接层, 将各文本表征向量分别加和平均 再激活后各 自送入对应的全连接层, 得到多个初级隐藏状态向量, 将初级隐藏状态向量进行拼接得到 隐藏状态向量。 7.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 将隐藏 状态向量送入隐藏层和分类器, 得到待检测文本被检测为各谣言类别的概率, 包括如下步 骤: 将隐藏状态向量送入隐藏层, 经 过隐藏层的非线性激活函数处 理, 输出隐藏输出向量; 将隐藏输出向量送入softmax回归分类器, 得到待检测文本被检测为各谣言类别的概 率: O=softmax(ZWo+bo)权 利 要 求 书 1/2 页 2 CN 114328843 A 2其中, Z是隐藏输出向量, Wo是隐藏层和分类 器质检的连接 权重, bo是c维向量偏置 。 8.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 所述谣 言类别包括真实谣言、 虚假谣言和真实性未 经验证谣言。 9.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 所述标 记词汇表通过Subw ord算法建立。 10.一种基于多层编码网络的谣言检测系统, 其特 征在于, 包括: 文本预处 理模块: 用于获取 所有待检测的文本, 对文本进行 预处理; 向量编码模块: 用于将带有标记词汇表的词片嵌入预处理后的文本, 将文本中单词转 换为token标记词, 然后进行向量编码得到各文本对应的词向量; 输入向量获取模块: 用于对所有词向量进行处 理得到输入向量; 语义学习模块: 用于将输入向量输入预训练好的多层编码网络中, 生成输出向量; 隐藏状态向量获取模块: 用于将输出向量进行处 理得到隐藏状态向量; 检测模块: 用于将隐藏状态向量送入隐藏层和分类器, 得到待检测文本被检测为各谣 言类别的概 率, 概率最大的类别为该文本的检测结果。权 利 要 求 书 2/2 页 3 CN 114328843 A 3
专利 一种基于多层编码网络的谣言检测方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:58
上传分享
举报
下载
原文档
(599.6 KB)
分享
友情链接
国家健康医疗大数据标准、安全和服务管理办法.pdf
DB63-T1868-2020 市场监管信息系统运维规范 青海省.pdf
GB-T 41085-2021 城乡社区环卫清洁服务要求.pdf
GB-T 31439.1-2015 波形梁钢护栏 第1部分:两波形梁钢护栏.pdf
GB-T 38664.1-2020 信息技术 大数据 政务数据开放共享 第1部分:总则.pdf
GB-T 20945-2013 信息安全技术信息系统安全审计产品技术要求和测试评价方法.pdf
贵阳市大数据安全管理条例.pdf
GB-T 35280-2017 信息安全技术 信息技术产品安全检测机构条件和行为准则.pdf
GB-T 43579-2023 区块链和分布式记账技术 智能合约生命周期管理技术规范.pdf
DB36-T 1774-2023 桑螟虫情监测与防控技术规程 江西省.pdf
tc260 网络安全标准实践指南 信息系统灾难备份实践指引 2022.pdf
NY-T 3928-2021 农作物品种试验规范 茶树.pdf
DB44-T 2368-2022 社会组织能力建设指南 广东省.pdf
GB-T 41475-2022 1:25 000~1:500 000土壤养分图用色与图例规范.pdf
GB 29436.4-2015 甲醇单位产品能源消耗限额 第4部分:焦炉煤气制甲醇.pdf
MZ-T 156-2020 低视力康复服务规范.pdf
DB41-T 1435-2017 独山玉饰品质量等级评价 河南省.pdf
GB-T 38626-2020 信息安全技术 智能联网设备口令保护指南.pdf
GB-T 42572-2023 信息安全技术 可信执行环境服务规范.pdf
安全管理制度体系文件.pdf
1
/
12
评价文档
赞助2.5元 点击下载(599.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。