(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210028647.X
(22)申请日 2022.01.11
(71)申请人 北京天际友盟信息技 术有限公司
地址 100026 北京市朝阳区惠新 东街8号设
计大厦
(72)发明人 董龙飞 刘广坤 杨大路 翟湛鹏
刘志宏
(74)专利代理 机构 北京墨丘知识产权代理事务
所(普通合伙) 11878
代理人 唐忠仙 谷轶楠
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 16/36(2019.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种信息 检测方法、 装置及设备
(57)摘要
本发明公开了一种信息检测方法、 装置及设
备, 该方法包括: 获取待检测信息; 分别基于 所述
待检测信息的视觉表征、 文本结构、 语义表征 以
及语义推断结果识别所述待检测 信息, 得到四个
识别结果; 若所述至少四个识别结果中的至少一
个识别结果与相应预设结果不匹配, 则确定所述
待检测信息是虚假信息; 若所述至少四个识别结
果均与相应预设结果匹配, 则确定所述待检测信
息是非虚假信息。 通过上述方式, 本发明提高了
虚假威胁情报识别的精度, 完善了对虚假威胁情
报的检测方法。
权利要求书3页 说明书15页 附图4页
CN 114417860 A
2022.04.29
CN 114417860 A
1.一种信息检测方法, 其特 征在于, 所述方法包括:
获取待检测信息;
分别基于所述待检测信息的视觉表征、 文本结构、 语义表征以及语义推断结果识别所
述待检测信息, 得到四个识别结果;
若所述至少四个识别结果中的至少一个识别结果与相应预设结果不匹配, 则确定所述
待检测信息是虚假信息;
若所述至少四个识别结果均与相应预设结果匹配, 则确定所述待检测信 息是非虚假信
息。
2.根据权利要求1所述的信 息检测方法, 其特征在于, 基于所述视觉表征识别所述待检
测信息, 得到一个识别结果, 包括:
分别判断所述待检测信息是否被篡改、 是否多重压缩以及是否为生成的图像, 得到三
个判断结果;
若所述三个判断结果中的至少一个判断结果与相应预设结果不匹配, 则确定基于所述
视觉表征的识别结果 为虚假信息;
若所述至少三个判断结果均与相应预设结果匹配, 则确定基于所述视觉表征的识别结
果为非虚假信息 。
3.根据权利要求1所述的信 息检测方法, 其特征在于, 基于所述文本结构识别所述待检
测信息, 得到一个识别结果, 包括:
提取所述待检测信息的语义特 征;
分别对所述检测信息的语义特征进行风格计算、 完整度计算和流畅度计算, 得到三个
计算结果;
若所述三个判断结果中的至少一个判断结果与相应预设结果不匹配, 则确定基于所述
文本结构的识别结果 为虚假信息;
若所述至少三个判断结果均与相应预设结果匹配, 则确定基于所述文本结构的识别结
果为非虚假信息 。
4.根据权利要求1所述的信 息检测方法, 其特征在于, 基于所述语义表征识别所述待检
测信息, 得到一个识别结果, 包括:
对所述待检测信息对应的文本进行分词, 得到第一词集;
基于所述待检测信息的语义向所述第一词集中添加词, 得到第二词集;
获得所述第二词集中每 个第二词的词向量;
根据所述每 个词向量确定相应词表征的属性, 所述属性包括实体词和关系词;
根据所述各第二词的属性获得 所述第二词集对应的第一 三元组;
根据所述第一 三元组, 获得基于所述语义表征的识别结果。
5.根据权利要求4所述的信息检测方法, 其特征在于, 根据所述第一三元组, 获得基于
所述语义表征的识别结果, 包括:
基于所述第一 三元组构建 关于所述第一 三元组的第一知识图谱;
查询预配置的知识图谱中关于所述第一 三元组的信息, 得到查询结果;
汇聚所述 查询结果, 构建 关于所述第一 三元组的第二知识图谱;
若所述第一知识图谱和所述第 二知识图谱的内容一致, 则确定基于所述语义表征的识权 利 要 求 书 1/3 页
2
CN 114417860 A
2别结果为非虚假信息;
若所述第一知识图谱和所述第 二知识图谱的内容不一致, 则确定基于所述语义表征的
识别结果 为虚假信息 。
6.根据权利要求1所述的信 息检测方法, 其特征在于, 基于所述语义推断结果识别所述
待检测信息, 得到一个识别结果, 包括:
提取所述待检测信 息对应的若干标题中的至少两个关键词; 计算所述至少两个关键词
的总贡献度, 根据所述总贡献度对所述至少 两个关键词对应的所述待检测信息进行聚合,
得到至少一个组合后的文本;
抽取所述至少一个组合后的文本的实体与关系, 得到所述至少一个组合后的文本的至
少一个第二 三元组;
根据所述至少一个第二 三元组, 获得基于所述语义推断结果的识别结果。
7.根据权利要求6所述的信 息检测方法, 其特征在于, 计算所述至少两个关键词的总贡
献度, 根据所述总贡献度对所述至少 两个关键词对应的所述待检测信息进行聚合, 得到至
少一个聚合后的数据, 包括:
对应所述至少两个关键词中的任意两个关键词wi和wj, 获得wi和wj在所述待检测信息
中同时出现的次数c(w i, wj), 其中, i和j均是 大于或者 等于1的整数, 且i 不等于j;
根据算法
确定所述关键
词wi和所述关键词wj之间的关联参数;
若所述关联参数小于预设阈值, 则将所述wi和所述wj的关联度设置为0, 若所述关联参
数大于预设阈值, 则将所述关联参数r(w i,wj)确定为所述 wi和所述wj的关联度;
根据算法Gwi=∑j≠ir(wi,wj), 计算所述至少两个关键词中每个关键词的总贡献度, 其
中, G为总贡献度;
将所述至少两个关键词按总贡献度由高到低的顺序依次提取所述至少两个关键词中
的一个关键词, 以及与该关键词关联度最高的K个关键词, 其中, K小于i和j中较大的值;
将提取到的K+1个关键词对应的所述待检测信息进行组合, 得到至少一个组合后的文
本;
重复将提取到的K+1个关键词对应的所述待检测信息进行组合, 得到至少一个组合后
的文本, 直到提取完所述至少两个关键词, 得到所有组合后的文本 。
8.根据权利要求6或7所述的信息检测方法, 其特征在于, 根据所述至少一个第二三元
组, 获得基于所述语义推断结果的识别结果, 包括:
基于所述至少一个第 二三元组, 构建关于所述至少一个第 二三元组的至少一个第 三知
识图谱;
根据语义相似度将所述至少一个第 三知识图谱分为至少一组, 每组第 三知识图谱中的
语义相似度大于阈值;
对应每组第三知识图谱, 确定该组第三知识图谱内容是否一致, 若所述至少一个第三
知识图谱中存在内容不一致的第三知识图谱, 则确定该第三知识图谱对应的所述待检测信
息基于所述语义推断结果的识别结果 为虚假信息;
若所述至少一个第 三知识图谱中不存在知识不一致的第 三知识图谱, 则确定所有所述权 利 要 求 书 2/3 页
3
CN 114417860 A
3
专利 一种信息检测方法、装置及设备
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:59上传分享