(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210024487.1
(22)申请日 2022.01.11
(65)同一申请的已公布的文献号
申请公布号 CN 114090756 A
(43)申请公布日 2022.02.25
(73)专利权人 杭银消费金融股份有限公司
地址 310005 浙江省杭州市下城区庆春路
38号1层101室、 8层801、 802、 803、 804
室、 11层1101、 1102室
(72)发明人 陈敏
(74)专利代理 机构 浙江维创盈嘉专利代理有限
公司 33477
代理人 龚洋洋
(51)Int.Cl.
G06F 16/332(2019.01)G06F 16/35(2019.01)
G06F 40/216(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06Q 50/00(2012.01)
(56)对比文件
CN 108776671 A,2018.1 1.09
CN 107885793 A,2018.04.0 6
CN 113591487 A,2021.1 1.02
US 2008249764 A1,20 08.10.09
CN 1073157 78 A,2017.1 1.03
张瑜 等.“面向主题的微博热门话题舆情监
测研究— —以“北京单双号限行常态化 ”舆情分
析为例”. 《中文信息学报》 .2015,第143 -151+159
页.
审查员 魏留强
(54)发明名称
一种舆情信息的智能化处理方法、 设备、 存
储介质
(57)摘要
本申请公开了一种舆情信息的智能化处理
方法, 属于信息处理领域,该方法包括: 采集指定
平台的第一热点话题; 获取第一热点话题的全部
待分析文本, 对待分析文本进行句子拆解, 将与
预先搭建的分词词典中的词语进行匹配成功的
词语从句子中切分出来; 从切分后得到的词语中
抽取样本词语, 确定每个词语的词频; 确定每个
词语的权重; 根据每个词语的词频和每个词语的
权重计算每个词语的词频指数TF ‑IDF值; 然后提
取待分析文本的特征属性; 确定待分析文本的情
感倾向; 从第一热点话题中筛选第二热点话题,
获取第二热点话题的评论文本、 主体事件文本;
通过自然语言处理对主体事件文本进行逻辑分
析, 确定事件脉络; 根据评论文本的情感倾向以
及事件脉络生成回复文本 。
权利要求书4页 说明书11页 附图2页
CN 114090756 B
2022.04.15
CN 114090756 B
1.一种舆情信息的智能化处 理方法, 其特 征在于, 包括:
采集指定平台的第一热点 话题, 确定所述第一热点 话题的热度值;
获取所述第一热点话题的全部待分析文本, 对所述待分析文本进行句子拆解, 以句子
为最小分析单元, 将所述句子与预先搭建的分词词典 中的词语进 行匹配, 若匹配成功, 则将
所述词语从所述句子中切分出来;
从切分后得到的词语中抽取样本词语, 通过计算所述样本词语每个词语的最大似然估
计值, 确定每 个词语在所述待分析文本包 含的所有词语中的词频;
确定待分析文本的总数和每个词语出现的待分析文本数, 根据 所述待分析文本的总数
和所述每 个词语出现的待分析文本数, 确定所述每 个词语的权 重;
根据每个词语的词频和每 个词语的权 重计算每 个词语的词频指数TF ‑IDF值;
根据每个词语的TF ‑IDF值提取所述待分析文本的特 征属性;
根据待分析文本包 含的特征属性的概 率确定所述待分析文本的情感倾向, 具体包括:
确定待分析文本的特征属性, 并得到包括所述特征属性的训练样本; 其中, 各个特征属
性之间相互独立;
通过所述训练样本, 对朴素贝叶斯模型进行训练, 包括:
计算每个类别概率;
在每个特征属性发生的条件下, 计算每 个类别的条件概 率;
在一个或多个特 征属性发生的条件下, 确定概 率最大的类别为情感倾向;
得到训练完成的朴素贝叶斯模型;
将待分析文本输入到所述训练完成的朴素贝叶斯模型中进行分类预测, 确定所述待分
析文本的情感倾向; 所述情感倾向包括 正面情感类型和负面情感类型;
从所述第一热点话题中获取热度值达到第 一预设阈值的第 二热点话题, 获取所述第 二
热点话题待分析文本; 所述待分析文本包括评论文本、 主体事 件文本;
通过自然语言处理对所述主体事件文本进行逻辑分析, 确定事件脉络; 根据所述评论
文本的情感倾向以及所述事 件脉络生成针对所述评论文本的回复文本 。
2.根据权利要求1所述的方法, 其特征在于, 在针对所述评论文本发送所述回复文本
后, 所述方法还 包括:
在经过第二预设时间后判断评论文本的情感倾向是否为 正面情感;
若未在所述第 二预设时间后确定所述待分析文本的情 感倾向为正面情感, 则根据 所述
第二热点话题的待分析文本生成文本特征矩阵, 对所述特征矩阵进行降维处理, 计算所述
特征矩阵在降维处 理后的第一特 征向量;
根据历史话题的待分析文本生成特征矩阵, 计算所述历史话题的特征矩阵与 所述热点
话题的特 征矩阵在同一维度进行降维后的第二特 征向量;
计算所述第一特 征向量与所述第二特 征向量的夹角的余弦值;
在所述余弦值大于预设阈值的情况下, 确定所述第 二热点话题与所述历史话题为相似
话题;
获取所述第 二热点话题的相似话题对应的历史话题的处理流程, 根据 该历史话题的处
理流程生成当前第二热点 话题的处 理流程。
3.根据权利要求1所述的方法, 其特征在于, 所述通过自然语言处理对所述主体事件文权 利 要 求 书 1/4 页
2
CN 114090756 B
2本进行逻辑分析, 确定事 件脉络, 具体包括:
将所述句子与预先搭建的分词词典中的词语进行匹配, 若匹配成功, 则将所述词语从
所述句子中切分出来;
在进行分词处 理后对得到的词语进行词性标注;
确定每个词语在句子中所属的句子成分;
基于情感词典对所述词语进行情 感标记, 根据所述情 感标记的分值确定对应词语的情
感权重;
获取所述主体事件中的时间节点, 根据所述进行分词处理后对得到的词语的词性标
注、 句子成分、 情感权重, 根据中文语法生成对应所述时间节点的文本摘要; 所述文本摘要
按照时间、 人物、 地 点的要素生成;
将所述文本摘要 按照时间节点的顺序进行排序, 确定事 件脉络。
4.根据权利要求1所述的方法, 其特征在于, 所述采集指定平台的第一热点话题后, 所
述方法还 包括:
确定所述第一热点 话题的情感倾向;
根据所述情 感倾向生成第 一级类别的数据库; 所述第 一级类别包括正面情 感和负面情
感;
在所述第一级类别的数据库中, 生成第二级类别的子数据库; 所述第二级类别 中正面
情感包括高兴、 从容、 安静、 骄傲, 负面情感包括失落、 愤怒、 伤 心、 厌恶;
对所述第一热点话题进行判别分析, 根据 所述判别分析结果将所述第 一热点话题存储
进对应的第二级类别的子数据库中。
5.根据权利要求1所述的方法, 其特征在于, 在获取所述第 一热点话题的全部待分析文
本后, 所述方法还 包括:
获取每个发布所述待分析文本的用户信息;
根据所述用户信息进行 数据整合, 生成结构化数据;
对所述结构化数据中用户信 息进行筛选, 根据筛选出的用户信 息对所述待分析文本进
行分类;
对分出的每 个类别的待分析文本进行情感分析, 确定所述待分析文本的情感倾向。
6.根据权利要求1所述的方法, 其特征在于, 在确定所述第一热点话题的情感倾向后,
所述方法还 包括:
根据所述第 一热点话题的热度值的变化和所述第 一热点话题的情感倾向, 确定第 一热
点话题的舆论趋势;
所述舆论趋势分为四类, 第 一类为热度值升高、 情 感倾向为负面情感的趋势, 第 二类为
热度值降低、 情感倾向为负面情感的趋势, 第三类为热度值降低、 情感倾向为正面情感的趋
势, 第四类为热度值升高、 情感倾向为正面情感的趋势; 所述第一类舆论趋势、 第二类舆论
趋势、 第三类舆论趋势、 第四类舆论趋势的优先级依次降低;
判断所述第二热点 话题的舆论趋势是否属于第一类舆论趋势;
若是, 对参与所述第二热点话题 的各个用户所发布内容的点赞数、 转发数、 浏览数、 评
论数作加权处 理, 得到所述各个用户的热度值;
根据所述用户的热度值确定所述第 二热点话题的第 一源节点或第 二源节点; 所述第 一权 利 要 求 书 2/4 页
3
CN 114090756 B
3
专利 一种舆情信息的智能化处理方法、设备、存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:58上传分享