专利 一种舆情信息的智能化处理方法、设备、存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210024487.1 (22)申请日 2022.01.11 (65)同一申请的已公布的文献号申请公布号 CN 114090756 A (43)申请公布日 2022.02.25 (73)专利权人杭银消费金融股份有限公司地址 310005 浙江省杭州市下城区庆春路 38号1层101室、 8层801、 802、 803、 804 室、 11层1101、 1102室 (72)发明人陈敏　 (74)专利代理机构浙江维创盈嘉专利代理有限公司 33477 代理人龚洋洋 (51)Int.Cl. G06F 16/332(2019.01)G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06Q 50/00(2012.01) (56)对比文件 CN 108776671 A,2018.1 1.09 CN 107885793 A,2018.04.0 6 CN 113591487 A,2021.1 1.02 US 2008249764 A1,20 08.10.09 CN 1073157 78 A,2017.1 1.03 张瑜等.“面向主题的微博热门话题舆情监测研究— —以“北京单双号限行常态化 ”舆情分析为例”. 《中文信息学报》 .2015,第143 -151+159 页. 审查员魏留强 (54)发明名称一种舆情信息的智能化处理方法、设备、存储介质 (57)摘要本申请公开了一种舆情信息的智能化处理方法，属于信息处理领域,该方法包括：采集指定平台的第一热点话题；获取第一热点话题的全部待分析文本，对待分析文本进行句子拆解，将与预先搭建的分词词典中的词语进行匹配成功的词语从句子中切分出来；从切分后得到的词语中抽取样本词语，确定每个词语的词频；确定每个词语的权重；根据每个词语的词频和每个词语的权重计算每个词语的词频指数TF ‑IDF值；然后提取待分析文本的特征属性；确定待分析文本的情感倾向；从第一热点话题中筛选第二热点话题，获取第二热点话题的评论文本、主体事件文本；通过自然语言处理对主体事件文本进行逻辑分析，确定事件脉络；根据评论文本的情感倾向以及事件脉络生成回复文本。权利要求书4页说明书11页附图2页 CN 114090756 B 2022.04.15 CN 114090756 B 1.一种舆情信息的智能化处理方法，其特征在于，包括：采集指定平台的第一热点话题，确定所述第一热点话题的热度值；获取所述第一热点话题的全部待分析文本，对所述待分析文本进行句子拆解，以句子为最小分析单元，将所述句子与预先搭建的分词词典中的词语进行匹配，若匹配成功，则将所述词语从所述句子中切分出来；从切分后得到的词语中抽取样本词语，通过计算所述样本词语每个词语的最大似然估计值，确定每个词语在所述待分析文本包含的所有词语中的词频；确定待分析文本的总数和每个词语出现的待分析文本数，根据所述待分析文本的总数和所述每个词语出现的待分析文本数，确定所述每个词语的权重；根据每个词语的词频和每个词语的权重计算每个词语的词频指数TF ‑IDF值；根据每个词语的TF ‑IDF值提取所述待分析文本的特征属性；根据待分析文本包含的特征属性的概率确定所述待分析文本的情感倾向，具体包括：确定待分析文本的特征属性，并得到包括所述特征属性的训练样本；其中，各个特征属性之间相互独立；通过所述训练样本，对朴素贝叶斯模型进行训练，包括：计算每个类别概率；在每个特征属性发生的条件下，计算每个类别的条件概率；在一个或多个特征属性发生的条件下，确定概率最大的类别为情感倾向；得到训练完成的朴素贝叶斯模型；将待分析文本输入到所述训练完成的朴素贝叶斯模型中进行分类预测，确定所述待分析文本的情感倾向；所述情感倾向包括正面情感类型和负面情感类型；从所述第一热点话题中获取热度值达到第一预设阈值的第二热点话题，获取所述第二热点话题待分析文本；所述待分析文本包括评论文本、主体事件文本；通过自然语言处理对所述主体事件文本进行逻辑分析，确定事件脉络；根据所述评论文本的情感倾向以及所述事件脉络生成针对所述评论文本的回复文本。 2.根据权利要求1所述的方法，其特征在于，在针对所述评论文本发送所述回复文本后，所述方法还包括：在经过第二预设时间后判断评论文本的情感倾向是否为正面情感；若未在所述第二预设时间后确定所述待分析文本的情感倾向为正面情感，则根据所述第二热点话题的待分析文本生成文本特征矩阵，对所述特征矩阵进行降维处理，计算所述特征矩阵在降维处理后的第一特征向量；根据历史话题的待分析文本生成特征矩阵，计算所述历史话题的特征矩阵与所述热点话题的特征矩阵在同一维度进行降维后的第二特征向量；计算所述第一特征向量与所述第二特征向量的夹角的余弦值；在所述余弦值大于预设阈值的情况下，确定所述第二热点话题与所述历史话题为相似话题；获取所述第二热点话题的相似话题对应的历史话题的处理流程，根据该历史话题的处理流程生成当前第二热点话题的处理流程。 3.根据权利要求1所述的方法，其特征在于，所述通过自然语言处理对所述主体事件文权　利　要　求　书 1/4 页 2 CN 114090756 B 2本进行逻辑分析，确定事件脉络，具体包括：将所述句子与预先搭建的分词词典中的词语进行匹配，若匹配成功，则将所述词语从所述句子中切分出来；在进行分词处理后对得到的词语进行词性标注；确定每个词语在句子中所属的句子成分；基于情感词典对所述词语进行情感标记，根据所述情感标记的分值确定对应词语的情感权重；获取所述主体事件中的时间节点，根据所述进行分词处理后对得到的词语的词性标注、句子成分、情感权重，根据中文语法生成对应所述时间节点的文本摘要；所述文本摘要按照时间、人物、地点的要素生成；将所述文本摘要按照时间节点的顺序进行排序，确定事件脉络。 4.根据权利要求1所述的方法，其特征在于，所述采集指定平台的第一热点话题后，所述方法还包括：确定所述第一热点话题的情感倾向；根据所述情感倾向生成第一级类别的数据库；所述第一级类别包括正面情感和负面情感；在所述第一级类别的数据库中，生成第二级类别的子数据库；所述第二级类别中正面情感包括高兴、从容、安静、骄傲，负面情感包括失落、愤怒、伤心、厌恶；对所述第一热点话题进行判别分析，根据所述判别分析结果将所述第一热点话题存储进对应的第二级类别的子数据库中。 5.根据权利要求1所述的方法，其特征在于，在获取所述第一热点话题的全部待分析文本后，所述方法还包括：获取每个发布所述待分析文本的用户信息；根据所述用户信息进行数据整合，生成结构化数据；对所述结构化数据中用户信息进行筛选，根据筛选出的用户信息对所述待分析文本进行分类；对分出的每个类别的待分析文本进行情感分析，确定所述待分析文本的情感倾向。 6.根据权利要求1所述的方法，其特征在于，在确定所述第一热点话题的情感倾向后，所述方法还包括：根据所述第一热点话题的热度值的变化和所述第一热点话题的情感倾向，确定第一热点话题的舆论趋势；所述舆论趋势分为四类，第一类为热度值升高、情感倾向为负面情感的趋势，第二类为热度值降低、情感倾向为负面情感的趋势，第三类为热度值降低、情感倾向为正面情感的趋势，第四类为热度值升高、情感倾向为正面情感的趋势；所述第一类舆论趋势、第二类舆论趋势、第三类舆论趋势、第四类舆论趋势的优先级依次降低；判断所述第二热点话题的舆论趋势是否属于第一类舆论趋势；若是，对参与所述第二热点话题的各个用户所发布内容的点赞数、转发数、浏览数、评论数作加权处理，得到所述各个用户的热度值；根据所述用户的热度值确定所述第二热点话题的第一源节点或第二源节点；所述第一权　利　要　求　书 2/4 页 3 CN 114090756 B 3

专利 一种舆情信息的智能化处理方法、设备、存储介质

专利一种舆情信息的智能化处理方法、设备、存储介质