standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210105328.4 (22)申请日 2022.01.28 (71)申请人 河海大学 地址 210000 江苏省南京市 鼓楼区西康路1 号 (72)发明人 周晓峰 张雨臣  (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 专利代理师 颜盈静 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于特征融合模型的虚假新闻检测方 法 (57)摘要 本发明公开了一种基于特征融合模型的虚 假新闻检测方法, 包括以下步骤: 步骤1: 获取待 检测的新闻数据; 步骤2: 将获取到的新闻数据进 行预处理, 得到文本向量; 步骤3: 将文本向量输 入至局部语义子网络模型中, 得到新闻文本局部 语义特征; 步骤4: 将文本向量输入至上下文语义 子网络模型中, 得到新闻文本上下文语义特征; 步骤5: 采用TF ‑IDF算法提取新闻标题的关键词, 获取新闻标题的关键词特征; 步骤6: 将新闻文本 局部语义特征、 新闻文本上下文语义特征以及新 闻标题的关键词特征进行融合, 得到待检测的新 闻数据的融合文本表示; 步骤7: 将融合文本表示 输入至分类器中对待检测的新闻数据进行分类, 得到检测结果。 权利要求书2页 说明书6页 附图2页 CN 114462420 A 2022.05.10 CN 114462420 A 1.一种基于特 征融合模型的虚假 新闻检测方法, 其特 征在于: 包括以下步骤: 步骤1: 获取待检测的新闻数据, 所述 新闻数据包括 新闻文本以及新闻标题; 步骤2: 将获取到的新闻数据进行预处理, 依次包括分词操作、 去停用词操作和文本向 量化表示, 最终得到文本向量; 步骤3: 将步骤2得到的文本向量输入至局部语义子网络模型中, 得到新闻文本局部语 义特征; 步骤4: 将步骤2得到的文本向量输入至上下文语义子网络模型中, 得到新闻文本上下 文语义特 征; 步骤5: 采用TF ‑IDF算法提取新闻标题的关键词, 获取新闻标题的关键词特 征; 步骤6: 将新闻文本局部语义特征、 新闻文本上下文语义特征以及新闻标题的关键词特 征进行融合, 得到待检测的新闻数据的融合文本表示; 步骤7: 将融合文本表示输入至分类器中对待检测 的新闻数据进行分类, 得到检测结 果。 2.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 步 骤2中, 采用结巴分词工具以及停用 词表分别完成对待检测的新闻数据的分词操作和去停 用词操作。 3.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 步 骤2中, 采用w ord2vec模型对经分词操作和去停用词操作后的文本进行文本向量 化表示。 4.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 所 述局部语义子网络模型为CN N模型。 5.根据权利要求4所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 所 述CNN模型包括卷积层和池化层; 在卷积层中, 使用卷积核对文本向量进行卷积操作; 将卷 积操作结果输入至池化层, 提取所有局部特征 的平均值代替所有的局部特征, 得到新闻文 本局部语义特 征。 6.根据权利要求5所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 卷 积层使用大小为r ×d的滤波器对句子矩阵进行 卷积操作来完成特 征的提取工作, 表示 为: ci=f(W×xi:i+r‑1+b) (1) 其中, W为卷积核, r表示卷积核的大小, d表示词嵌入的维度, b表示偏置量, xi:i+r‑1表示 从i到i+r ‑1个词组成的句子向量, f表示 通过ReLU 进行非线性操作的函数; 经过卷积操作之后最终得到一个n ‑r+1维的局部特 征矩阵C: C={c1,c2,...cn‑r+1} (2)。 7.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 所 述上下文语义子网络模型为引入注意力机制的双向长短时记 忆神经网络 。 8.根据权利要求7所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 所 述引入注意力机制的双向长短时记 忆神经网络包括Bi LSTM模型和A ttention层; t时刻, Bi LSTM的隐藏状态包括前向的 和后向的 分别表示 为: 权 利 要 求 书 1/2 页 2 CN 114462420 A 2前向的 和后向的 合并, 实现文本数据的前向特 征和后向特 征的提取, 表示 为: 在Attention层中执行以下步骤: 记BiLSTM提取的特征向量集合H, 表示为[h1,h2,...hT], 其中H∈Rd×T, d为词向量的维 度, T为文本的长度; 通过以下公式得到 权重矩阵: M=tanh(H) (12) α =soft max(wTM) (13) r=HαT (14) 其中, w是维度为d的训练的参数向量, wT为训练学习得到的参数向量的转置矩阵, 之后 进行向量的加权得到新闻文本上 下文语义特 征表示h*: h*=tanh(r) (15)。 9.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 步 骤5中, 所述TF ‑IDF算法表示 为: TF‑IDF=TF·IDF (18) 其中: 式中, ni,j表示关键词ti在新闻标题dj中出现的次数, TFi,j表示关键词ti在新闻标题dj中 出现的频率; |D|表示所有新闻标题的数量, |j:ti∈dj|表示包含关键词ti的标题数量。权 利 要 求 书 2/2 页 3 CN 114462420 A 3

PDF文档 专利 一种基于特征融合模型的虚假新闻检测方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于特征融合模型的虚假新闻检测方法 第 1 页 专利 一种基于特征融合模型的虚假新闻检测方法 第 2 页 专利 一种基于特征融合模型的虚假新闻检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。