(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210105328.4
(22)申请日 2022.01.28
(71)申请人 河海大学
地址 210000 江苏省南京市 鼓楼区西康路1
号
(72)发明人 周晓峰 张雨臣
(74)专利代理 机构 南京苏高专利商标事务所
(普通合伙) 32204
专利代理师 颜盈静
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于特征融合模型的虚假新闻检测方
法
(57)摘要
本发明公开了一种基于特征融合模型的虚
假新闻检测方法, 包括以下步骤: 步骤1: 获取待
检测的新闻数据; 步骤2: 将获取到的新闻数据进
行预处理, 得到文本向量; 步骤3: 将文本向量输
入至局部语义子网络模型中, 得到新闻文本局部
语义特征; 步骤4: 将文本向量输入至上下文语义
子网络模型中, 得到新闻文本上下文语义特征;
步骤5: 采用TF ‑IDF算法提取新闻标题的关键词,
获取新闻标题的关键词特征; 步骤6: 将新闻文本
局部语义特征、 新闻文本上下文语义特征以及新
闻标题的关键词特征进行融合, 得到待检测的新
闻数据的融合文本表示; 步骤7: 将融合文本表示
输入至分类器中对待检测的新闻数据进行分类,
得到检测结果。
权利要求书2页 说明书6页 附图2页
CN 114462420 A
2022.05.10
CN 114462420 A
1.一种基于特 征融合模型的虚假 新闻检测方法, 其特 征在于: 包括以下步骤:
步骤1: 获取待检测的新闻数据, 所述 新闻数据包括 新闻文本以及新闻标题;
步骤2: 将获取到的新闻数据进行预处理, 依次包括分词操作、 去停用词操作和文本向
量化表示, 最终得到文本向量;
步骤3: 将步骤2得到的文本向量输入至局部语义子网络模型中, 得到新闻文本局部语
义特征;
步骤4: 将步骤2得到的文本向量输入至上下文语义子网络模型中, 得到新闻文本上下
文语义特 征;
步骤5: 采用TF ‑IDF算法提取新闻标题的关键词, 获取新闻标题的关键词特 征;
步骤6: 将新闻文本局部语义特征、 新闻文本上下文语义特征以及新闻标题的关键词特
征进行融合, 得到待检测的新闻数据的融合文本表示;
步骤7: 将融合文本表示输入至分类器中对待检测 的新闻数据进行分类, 得到检测结
果。
2.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 步
骤2中, 采用结巴分词工具以及停用 词表分别完成对待检测的新闻数据的分词操作和去停
用词操作。
3.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 步
骤2中, 采用w ord2vec模型对经分词操作和去停用词操作后的文本进行文本向量 化表示。
4.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 所
述局部语义子网络模型为CN N模型。
5.根据权利要求4所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 所
述CNN模型包括卷积层和池化层; 在卷积层中, 使用卷积核对文本向量进行卷积操作; 将卷
积操作结果输入至池化层, 提取所有局部特征 的平均值代替所有的局部特征, 得到新闻文
本局部语义特 征。
6.根据权利要求5所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 卷
积层使用大小为r ×d的滤波器对句子矩阵进行 卷积操作来完成特 征的提取工作, 表示 为:
ci=f(W×xi:i+r‑1+b) (1)
其中, W为卷积核, r表示卷积核的大小, d表示词嵌入的维度, b表示偏置量, xi:i+r‑1表示
从i到i+r ‑1个词组成的句子向量, f表示 通过ReLU 进行非线性操作的函数;
经过卷积操作之后最终得到一个n ‑r+1维的局部特 征矩阵C:
C={c1,c2,...cn‑r+1} (2)。
7.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 所
述上下文语义子网络模型为引入注意力机制的双向长短时记 忆神经网络 。
8.根据权利要求7所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 所
述引入注意力机制的双向长短时记 忆神经网络包括Bi LSTM模型和A ttention层;
t时刻, Bi LSTM的隐藏状态包括前向的
和后向的
分别表示 为:
权 利 要 求 书 1/2 页
2
CN 114462420 A
2前向的
和后向的
合并, 实现文本数据的前向特 征和后向特 征的提取, 表示 为:
在Attention层中执行以下步骤:
记BiLSTM提取的特征向量集合H, 表示为[h1,h2,...hT], 其中H∈Rd×T, d为词向量的维
度, T为文本的长度; 通过以下公式得到 权重矩阵:
M=tanh(H) (12)
α =soft max(wTM) (13)
r=HαT (14)
其中, w是维度为d的训练的参数向量, wT为训练学习得到的参数向量的转置矩阵, 之后
进行向量的加权得到新闻文本上 下文语义特 征表示h*:
h*=tanh(r) (15)。
9.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法, 其特征在于: 步
骤5中, 所述TF ‑IDF算法表示 为:
TF‑IDF=TF·IDF (18)
其中:
式中, ni,j表示关键词ti在新闻标题dj中出现的次数, TFi,j表示关键词ti在新闻标题dj中
出现的频率; |D|表示所有新闻标题的数量, |j:ti∈dj|表示包含关键词ti的标题数量。权 利 要 求 书 2/2 页
3
CN 114462420 A
3
专利 一种基于特征融合模型的虚假新闻检测方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:40上传分享