(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210052820.X
(22)申请日 2022.01.18
(71)申请人 平安普惠企业管理有限公司
地址 518000 广东省深圳市前海深港合作
区前湾一路1号A栋201室
(72)发明人 赵乐
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 陈倩倩
(51)Int.Cl.
G06F 16/951(2019.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06N 3/02(2006.01)
(54)发明名称
舆情分析方法及相关产品
(57)摘要
本申请实施例公开了一种舆情分析方法及
相关产品。 该方法包括: 通过数据处理装置爬取
多个网页数据以及将多个网页数据发布到消息
队列; 通过第一服务器从消息队列中消费第一部
分网页数据, 并将部分网页数据离线存储到第一
数据库; 通过第一流计算引擎 从消息队列第二部
分网页数据, 对第二部分网页数据进行舆情分
析, 得到第二部分网页数据的舆情分析结果, 将
第二部分网页数据的舆情分析结果存储到第二
数据库; 通过第二流计算引擎 从第一数据库中获
取第一部分网页数据, 对第一部分网页数据进行
舆情分析, 得到第一部分网页数据的舆情分析结
果, 将第一部分网页数据的舆情分析结果存储到
第二数据库; 通过第二服务器将 舆情分析结果同
步到搜索引擎。
权利要求书3页 说明书12页 附图3页
CN 114491207 A
2022.05.13
CN 114491207 A
1.一种舆情分析方法, 其特征在于, 所述方法应用于舆情分析系统, 所述舆情分析系统
包括: 数据处理装置、 消息队列、 第一流计算引擎、 第一服务器、 第二流计算引擎、 第二服务
器以及搜索引擎, 所述第一服务器维护第一数据库, 所述第二服务器维护第二数据库; 所述
方法包括:
通过所述数据处 理装置爬取多个网页数据;
通过所述数据处 理装置将所述多个网页数据发布到所述消息队列;
通过所述第一服务器从所述消息队列中消费所述多个网页数据中的第一部分网页数
据, 并将所述第一部分网页数据离线存 储到所述第一数据库;
通过所述第一流计算引擎从所述消息队列中消费所述多个网页数据中的第二部分网
页数据, 对所述第二部分网页数据进行舆情分析, 得到所述第二部分网页数据的舆情分析
结果, 并将所述第二部分网页数据的舆情分析 结果存储到所述第二数据库;
通过所述第 二流计算引擎从所述第 一数据库中获取所述第 一部分网页 数据, 并对所述
第一部分网页数据进行舆情分析, 得到所述第一部分网页数据的舆情分析结果, 并将所述
第一部分网页数据的舆情分析 结果存储到所述第二数据库;
通过所述第 二服务器对所述第 一部分网页 数据的舆情分析结果, 以及所述第 二部分网
页数据的舆情分析结果进行整合, 得到所述多个网页数据的舆情分析结果, 并将所述多个
网页数据的舆情分析 结果同步到所述搜索引擎。
2.根据权利要求1所述的方法, 其特征在于, 所述将所述多个网页数据发布到消息队
列, 包括:
对所述多个网页 数据中的每个所述网页数据进行舆情评分, 得到每个所述网页 数据的
舆情评分, 其中, 每 个所述网页数据的舆情评分用于表征每 个所述网页数据的处 理优先级;
将所述多个网页数据中的所述第一部分网页数据发送到所述Kafak队列中的第一预设
主题, 其中, 所述第一部分网页数据中的任意 一个网页数据的舆情评分小于 评分阈值;
将所述多个网页数据中的所述第二部分网页数据发送到所述Kafak队列中的第二预设
主题, 其中, 所述第二部分网页数据中的任意一个网页数据的舆情评分大于或等于所述评
分阈值;
所述从所述消息队列中消费多个网页数据中的第一部分网页数据, 包括:
从所述第一预设主题中消费所述第一部分网页数据;
所述从消息队列中消费所述多个网页数据中的第二部分网页数据, 包括:
从所述第二预设主题中消费所述第二部分网页数据。
3.根据权利要求2所述的方法, 其特征在于, 所述对所述多个网页 数据中的每个所述网
页数据进行舆情评分, 得到每 个所述网页数据的舆情评分, 包括:
对所述多个网页数据进行聚类, 得到K个第一网页数据组, 其中, 每个所述第一网页数
据组对应同一个舆情事件, 每个所述第一网页数据组包括所述多个网页数据中的一个或多
个;
对每个所述第 一网页数据组中的多个网页 数据进行聚类, 得到与每个所述第 一网页数
据组对应的L个第二网页数据组, 其中, 每个所述第二网页数据组包括一个原创网页数据以
及与所述原创网页数据对应的H个转载网页数据;
根据每个所述第二网页数据组包括的一个原创 网页数据以及H个转载网页数据, 确定权 利 要 求 书 1/3 页
2
CN 114491207 A
2每个所述第一网页数据组对应的舆情事 件的舆情评分;
根据每个所述第 一网页数据组对应的舆情事件的舆情评分, 确定所述多个网页 数据中
的每个所述网页数据的舆情评分。
4.根据权利要求3所述的方法, 其特征在于, 所述根据每个所述第 二网页数据组包括的
一个原创网页数据以及H个转载网页数据, 确定每个所述第一网页数据组对应的舆情事件
的舆情评分, 包括:
根据每个所述第二网页数据组中的原创网页数据的预设比例以及每个所述第二网页
数据组包括的转载网页数据的数量H, 确定每个所述第二网页数据组的缩放比例, 所述原创
网页数据的预设比例表征了社会对所述原创网页数据归属的第一网页数据组所对应的舆
情事件的关注度;
对每个所述第一网页数据组下的所述L个第二网页数据组的缩放比例进行求和, 得到
每个所述第一网页数据组的缩放比例;
对每个所述第 一网页数据组进行情感识别, 得到每个所述第 一网页数据组对应的情感
标签, 其中, 所述情感标签用于表征每个所述第一网页数据组对应的舆情事件为正面舆情
事件或者负面舆情事 件;
获取每个所述第一网页数据组中的每 个网页数据的发表媒体;
根据每个所述第 一网页数据组中的每个网页 数据的发表媒体, 确定每个第 一网所述页
数据组中的最高级别的发表媒体;
根据发表媒体、 情感标签与舆情评分之间的映射关系, 以及每个第一网页数据组中的
最高级别的发表媒体和每个第一网页数据组对应的情感标签, 确定每个第一网页数据组对
应的舆情事 件的原始舆情评分;
对每个所述第 一网页数据组的缩放比例以及所述原始舆情评分进行乘积处理, 得到每
个所述第一网页数据组对应的舆情事 件的舆情评分。
5.根据权利要求3或4所述的方法, 其特征在于, 所述根据每个所述第一网页数据组对
应的舆情事件的舆情评分, 确定所述多个网页数据中的每个所述网页数据的舆情评分, 包
括:
获取每个所述第 一网页数据中的L个第 二网页数据组中的每个第 二网页数据组的网页
数据的数量;
对每个所述第 一网页数据中的L个第 二网页数据组中每个第 二网页数据组的网页 数据
的数量进行归一 化, 得到每 个所述第一网页数据中的每 个第二网页数据组的权 重;
根据每个所述第 一网页数据中的每个第 二网页数据组的网页数据的权重, 以及每个所
述第一网页数据组对应的舆情事件的舆情评分, 确定每个所述第一网页数据组中的每个第
二网页数据组的舆情评分;
根据每个所述第 一网页数据组中的每个第 二网页数据组的舆情评分, 得到每个第 二网
页数据组中的每 个网页数据的舆情评分;
根据每个第 二网页数据组中的每个网页数据的舆情评分, 确定所述多个网页 数据中的
每个所述网页数据的舆情评分。
6.根据权利要求2所述的方法, 其特征在于, 所述对所述多个网页 数据中的每个所述网
页数据进行舆情评分, 得到每 个所述网页数据的舆情评分, 包括:权 利 要 求 书 2/3 页
3
CN 114491207 A
3
专利 舆情分析方法及相关产品
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:52上传分享