专利 一种新闻评论的情感分析与生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210102343.3 (22)申请日 2022.01.27 (71)申请人四川大学地址 610000 四川省成都市武侯区一环路南一段24号 (72)发明人彭德中　张蔚琪　吕建成　彭玺　桑永胜　胡鹏　孙亚楠　王旭　陈杰　王骞　 (74)专利代理机构北京盛凡佳华专利代理事务所(普通合伙) 11947 专利代理师靳桂琳 (51)Int.Cl. G06F 40/247(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06F 40/216(2020.01) (54)发明名称一种新闻评论的情感分析与生成方法 (57)摘要本发明公开了一种新闻评论的情感分析与生成方法，具体包括以下步骤：准备初始数据集，其中包含人工标注小规模数据集A和大规模无监督数据集B；在数据集B的基础上，使用开源情感分类工具，为新闻评论情感分析模型建立大规模伪标签数据集C；基于大规模伪标签数据集C 预训练新闻评论情感分析模型；预训练后再在人工标注的小规模数据集A上微调，得到最终的新闻评论情感分析模型；使用最终的新闻评论情感分析模型，重新在数据集B上进行伪标签标注得到大规模伪标签数据集D；基于大规模伪标签数据集D 预训练可控式新闻评论生成模型；预训练后在人工标注的小规模数据集A上微调，得到最终的可控式新闻评论生成模型。权利要求书2页说明书7页附图2页 CN 114444481 A 2022.05.06 CN 114444481 A 1.一种新闻评论的情感分析与生成方法，其特征在于：具体包括以下步骤： S1、准备初始数据集，其中包含人工标注小规模数据集A和大规模无监督数据集B； S2、在数据集B的基础上，使用开源情感分类工具，为新闻评论情感分析模型建立大规模伪标签数据集C； S3、基于大规模伪标签数据集C预训练新闻评论情感分析模型； S4、预训练后再在人工标注的小规模数据集A上微调，得到最终的新闻评论情感分析模型； S5、使用最终的新闻评论情感分析模型，重新在数据集B上进行伪标签标注得到大规模伪标签数据集D； S6、基于大规模伪标签数据集D预训练可控式新闻评论生成模型； S7、预训练后在人工标注的小规模数据集A上微调，得到最终的可控式新闻评论生成模型。 2.如权利要求1所述的一种新闻评论的情感分析与生成方法，其特征在于：所述步骤S2中建立大规模伪标签数据集C流程是：使用开源情感分类工具Senta，预测无监督数据集B中新闻所有评论的情感极性，得到评论正面的概率a；将a＞0.85的作为正面评论， a＜0.15的作为负面评论， 0.4＜a＜0.6的作为中性评论，进而得到大规模伪标签数据集C。 3.如权利要求1所述的一种新闻评论的情感分析与生成方法，其特征在于：所述步骤S3中新闻评论情感分析模型包括Roformer模型和下游分类网络， Roformer模型输入为input_ids和token_type_ids，分别经过word embedding层和segment embedding 层后转为词向量序列和段向量序列； i nput_ids公式如下： input_ids＝[CLS]com ment[SEP]news[ SEP] (1) 其中， [CLS]表示整体的语义， [SEP]表示用做分隔， comment表示新闻评论， news表示新闻原文； token_type_id用来标志input_ids中的句子成分类别，在[CLS]comment[SEP]部分设置为1，标志为评论； news[SEP]部分设为0，标志为新闻原文内容；输入Roformer模型得到最后一层的隐状态last_hid den_state，公式如下： last_hid den_state＝Roformer(i nput_ids， to ken_type_ids) (2) 第一个[CLS ]位置隐状态hcls作为评论与新闻原文的句子关系的特征向量，经过下游分类网络得到该评论情感极性类别上的概率值ypred，公式如下： ypred＝softmax(L inear2(dropout(tanh(L inear1(hcls))))) (3) 其中， softmax表示激活函数，用于将特征向量每一维的值归一化为概率形式， tanh表示双曲正切激活函数， dropout表示随机丢弃层， Linear1表示输入维度和输出维度均和hcls 维度一致的中间线性层， Linear2表示输入维度和hcls维度一致，输出维度为情感极性类别个数的中间线性层。 4.如权利要求3所述的一种新闻评论的情感分析与生成方法，其特征在于：所述步骤S3中的预训练阶段，使用预测概率值ypred与真实概率值ytrue计算交叉熵损失，公式如下：权　利　要　求　书 1/2 页 2 CN 114444481 A 2其中， N表示样本数， M表示类别数， P(ytrue‑ic)表示第i个样本为第c个类别的真实概率， P (ypred‑ic)表示第i个样本为第c个类别的预测概率。 5.如权利要求1所述的一种新闻评论的情感分析与生成方法，其特征在于：所述步骤S6中可控式新闻评论生成模型包括UniLM模型， UniLM模型输入为input_ids 和token_type_ids，其中i nput_ids的公式如下： input_ids＝[CLS]news[ SEP][ui]～[uj]com ment[SEP] (5) 其中， [ui]～[uj]表示Roformer词表中预留的占位token，不同情感极性设置不同的占位token序列，长度相同但彼此间token不交叉；模型建模的概率及分解为每个token上的条件概率形式后为：其中， n为新闻原文， p为Prompt， c为评论， ci为评论中第i个token， c＜i为评论中第i个 token之前的to ken序列； token_type_ids用来标志input_ids中的句子成分类别，在[CLS]news[SEP]部分设置为0，计算时采用双向注意力，在[ui]～[uj]comment[SEP]部分设置为1，计算时采用单向注意力；在模型输出的comment部分进行自回归预测，训练时采用负对数似然损失函数优化模型，其公式如下：其中， ci为第i个样本的评论， ni为第i个样本的新闻原文， pi为第i个样本的Prompt。权　利　要　求　书 2/2 页 3 CN 114444481 A 3

专利 一种新闻评论的情感分析与生成方法

专利一种新闻评论的情感分析与生成方法