专利 一种多任务学习的双目标实体情感分析方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210054948.X (22)申请日 2022.01.18 (71)申请人桂林旅游学院地址 541006 广西壮族自治区桂林市雁山区雁山镇良丰路26号 (72)发明人文瑜　旷中洁　朱新华　 (74)专利代理机构南宁东智知识产权代理事务所(特殊普通合伙) 45117 专利代理师黎华艳　裴康明 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/08(2006.01) (54)发明名称一种多任务学习的双目标实体情感分析方法 (57)摘要本发明公开了一种多任务学习的双目标实体情感分析方法，通过句子语境分断符识别与左右实体情感极性分类的多任务学习，联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型。其次，使用所训练的神经网络模型识别情感句子中的语境分断符。再者，以得到的语境分断符对情感句子的语义表示进行分离，得到左子句语义表示和右子句语义表示，然后分别对左子句语义表示和右子句语义表示进行情感分析，最终得到双目标实体的情感极性。通过语境分断符使得情感句子中两个目标实体的情感表达相互分离，以更有效的方法解决方面级情感分析问题。权利要求书4页说明书11页附图1页 CN 115017912 A 2022.09.06 CN 115017912 A 1.一种多任务学习的双目标实体情感分析方法，其特征在于包括以下步骤： S1.通过句子语境分断符识别与左右实体情感极性分类的多任务学习，联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型； S2.使用步骤S1所训练的神经网络模型识别情感句子中的语境分断符； S3.在步骤S1所训练的神经网络模型中，以步骤S2得到的语境分断符所对应的位置对情感句子的语义表示进行分离，得到左子句语义表示和右子句语义表示，然后分别对左子句语义表示和右子句语义表示进行情感分析，最终得到双目标实体的情感极性；所述情感句子是指包含左、右两个目标实体的多情感表达句子；所述语境分断符是指在情感句子中位于左右两个目标实体之间、使得两个目标实体的情感表达相互分离的字词；所述神经网络模型是指一种基于BERT语言模型的神经网络结构；所述BERT语言模型是指Google AI Language提出的Bidirectional Encoder Representations from Transformers(BERT)语言模型。 2.根据权利要求1所述的一种多任务学习的双目标实体情感分析方法，其特征在于：所述步骤S1具体包括： S1.1 BERT语言模型的输入序列s是由情感句子Sen＝{ …,t1,w1,w2,…,wn,t2,…}与 BERT编码符号所组成，如下所示： Mid＝{w1,w2,...,wn} (2) 其中， [CLS]是BERT分类符的编码， [SEP]是BERT结束符的编码， t1是待分析的左目标实体,t2是待分析的右目标实体， Mid＝{w1,w2,...,wn}是左右目标实体t1和t2之间的中间字词序列，“…”代表省略的字词序列， m是输入序列s的长度， dw是BERT中字符编码的维度， n是中间字词序列Mid的长度，所述 “字词”是指文本经Bert的分词器Tokenzier分离出的语言片段； S1.2将输入序列s送入BERT语言模型进行处理，得到情感句子Sen的句子语义表示CSen，如下所示：其中，表示BERT语言模型, 是BERT语言模型的第i个隐藏状态,db是 BERT语言模型的隐藏单元数； S1.3按照对应关系，从CSen中抽取出中间字词序列Mid＝{w1,w2,...,wn}所对应的中间语义表示CMid，如下所示：其中，表示中间语义提取，是第i个中间字词wi在CSen中所对应的隐藏状态； S1.4对中间语义表示CMid执行一个softmax线性变换，进行语境分断符的识别，计算过程如下所示：权　利　要　求　书 1/4 页 2 CN 115017912 A 2其中，是一个用于语境分断符识别的可学习的参数向量，是一个偏置参数，表示向量的点积运算，是中间字词序列Mid对应的语境分断置信分数向量， w为一个中间字词， Ρ(w|CM i d,θ)表示中间字词w为语境分断符的预测概率，表示返回使得Ρ(w|CMid, θ )为最大值的中间字词， w*为计算得出的语境分断符， θ 是所有可学习的参数集合， exp(·)表示以e为底的指数函数； S1.5以语境分断符wsp作为分隔符，形成两个由1、 0组成的掩码矩阵，将句子语义表示 CSen分离成左子句语义表示Cleft和右子句语义表示Cright，计算过程如下所示：其中， maskL为用于分离左子句语义的掩码矩阵， maskr为用于分离右子句语义的掩码矩阵，为一个全1向量，为一个全 0向量， tonk eni∈Sen为句子Sen中的第i个字词，函数求指定字词在句子Sen中的位置编号，为maskL中的第i列向量， i∈ [1,m]且为整数，为maskr中的第j列向量， j∈[1,m]且为整数，表示逐元素相乘； S1.6分别在左子句语义表示Cleft和右子句语义表示Cright上执行一个多头自注意力的编码过程，得到左子句语义编码C'left和右子句语义编码C'right，计算过程如下所示：其中， MHSA()X表示输入的多头注意力M HA(Q,K,V)； S1.7分别对左子句语义编码C'left和右子句语义编码C'right执行平均池化操作，得到左子句情感向量ZL和右子句情感向量Zr，计算过程如下：权　利　要　求　书 2/4 页 3 CN 115017912 A 3

专利 一种多任务学习的双目标实体情感分析方法

专利一种多任务学习的双目标实体情感分析方法