专利 一种基于用户知识的个性化隐式情感分析方法与系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210003724.6 (22)申请日 2022.01.04 (71)申请人山西大学地址 030006 山西省太原市坞城路9 2号 (72)发明人廖健　王素格　郑建兴　 (74)专利代理机构山西科汇联创知识产权代理事务所 (特殊普通合伙) 14126 代理人胡新瑞 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06N 5/02(2006.01) G06F 40/30(2020.01) (54)发明名称一种基于用户知识的个性化隐式情感分析方法与系统 (57)摘要本发明公开了计算机文本数据挖掘与隐式情感分析技术领域的一种基于用户知识的个性化隐式情感分析方法和系统，该方法通过对用户的内容知识、社会化属性知识进行建模，得到用户的内部知识表示；针对用户的外部知识，利用社会网络关系学习用户的社会化关系表示；将用户的知识与文本序列信息相融合进行隐式情感分析，本发明解决了隐式情感分析中用户个性化建模的问题，在学习速度和模型精度上均有良好的提升效果。权利要求书5页说明书14页附图5页 CN 114281999 A 2022.04.05 CN 114281999 A 1.一种基于用户知识的个性化隐式情感分析方法，其特征在于：包括以下步骤： S1：使用开放领域文本及交互数据，构建用户外部信息和用户内部信息库；其中，所述的用户外部信息包括用户的社会化关注关系，通过矩阵A进行表示；所述的用户内部信息库包括用户id、用户发布内容集合C以及用户基本信息集合I；待分析隐式情感句标记为s； S2：将用户基本信息集合I输入B ert预训练模型获取其向量表示，将向量拼接获取用户基本信息I的特征表示Ei； S3：使用开放情感常识知识库，利用句子 ‑词汇的匹配关系构建知识图谱G； S4：根据基于知识嵌入的多极性注意力模型结合步骤S3中所述的知识图谱G，获取步骤 S1中所述的用户发布内容集合C的特征表示为Ec，以及待分析隐式情感句子序列特征表示为Hs； S5：根据UD ‑GCN模型，以步骤S1中获取的矩阵A为输入获取用户社会化关系特征表示为 Eu； S6：根据堆栈注意力模型，将步骤S2、 S4、 S5中获取的用户基本信息集合I的特征Ei、用户发布内容集合C的特征Ec、用户社会化关系特征Eu与隐式情感句子序列特征Hs进行融合学习，获取用户知识嵌入的隐式情感句子语义表示H； S7：根据正交注意力机制模型，对步骤S6中获取的用户知识嵌入的隐式情感句子语义表示H进行优化训练，通过全连接层预测该句子的隐式情感标签 2.根据权利要求1所述的一种基于用户知识的个性化隐式情感分析方法，其特征在于：步骤S1中构建的用户社会化关注关系矩阵 n为输入数据集包含的用户个数， Aij∈ {0,1,2,3}表示用户i与用户j之间的社会化关注关系，包括i关注j、 j关注i、 ij互相关注以及无关系四种类型，用户的基本信息集合I包括用户性别、地域以及个人签名信息。 3.根据权利要求1所述的一种基于用户知识的个性化隐式情感分析方法，其特征在于：步骤S3中所述开放情感常识知识库的知识以三元组形式呈现，形式为T＝<h， r， t>，其中， h 为头实体， r 为实体间的关系， t 为尾实体。开放情感词典库记为d，需要进行知识匹配的句子记为S，步骤S3中所述句子 ‑词汇匹配关系定义包括如下四种： (1)情感常识三元组筛选：主要用于获取带情感信息的三元组，使用三元组与情感词匹配，确保三元组中的h或t包含情感词，即h∈d或t∈d，且h和t不会同时包含词典d中的词； (2)文本相关三元组筛选：主要用于获取与文本相关的三元组，使用隐式情感数据与筛选后的数据匹配，仅当三元组中的h或t存在于句子S中时，即h∈S或t∈S，且h和t不会同时存在于S中，保留此三元组； (3)关系类型筛选：主要用于获取合适关系类型的三元组，通过人工对一定关系下的三元组的合理性进行判别，即判别h、 t和r之间是否出现逻辑问题，选取前十种匹配得到的最多三元组的关系类型，作为要引入的三元组； (4)语义相关三元组筛选：主要用于获取与隐式情感句语义相关的三元组，把三元组转化为一个句子表达以计算其与句子的语义相似度，使用Bert模型学习自然语言形式的三元组表达和隐式情感句的表示，并进行余弦相似度计算，所述余弦相似度计算公式为：权　利　要　求　书 1/5 页 2 CN 114281999 A 2其中， E1和E2表示三元组转化的句子与隐式情感句子分别输入B ert模型学习得到的向量，对筛选出的三元组计算余弦值并降序排列，选取相似度值前七的三元组引入文本中。 4.根据权利要求1所述的一种基于用户知识的个性化隐式情感分析方法，其特征在于：所述步骤S4具体步骤为： S4.1：对于用户ui发布内容集合C中的句子，将其合并成一个长文本Si； S4.2：根据步骤S3中获取的知识图谱 G，合并获取Si的知识图谱Gi，使用TransE模型学习获取图谱Gi中的各知识实体h/t及关系r的特征表示向量Eh/Et、 Er，使其满足关系： Eh‑Et≈ Er； S4.3：通过图注意力层对图谱Gi进行编码，将Gi中各知识三元组的实体向量表示拼接，并分别动态计算它们的权重， βik＝(Wrrik)σ(Whhik+Wttik) 其中， Gi为长文本Si的知识图谱的向量表示，假设图谱Gi共包括l条知识三元组，分别表示图谱Gi中的第k组知识三元组gik＝<h， r， t>的向量表示，表示向量拼接操作， αik是三元组gik的归一化权重， exp(x)＝ex为以自然常数e为底的指数函数， βik为三元组gik的权重得分， Wh,Wt和分别是hik,tik和rik的参数矩阵， σ( ·)是非线性激活函数tanh(x)，T表示向量转置。将词xi的表示wi与知识图谱的表示Gi拼接将et作为BiLSTM的输入单元，进行序列建模学习； Ht＝ot⊙tanh(ct) 其中， Wi,Wf和Wo分别为输入门it、遗忘门ft、输出门οt中激活层的参数矩阵；表示临时信息的向量表示， ct是控制内部信息传递的变量； Ht、 Ht‑1分别为t时刻与t ‑1时刻隐层的输出， bf,bi,bo和bc为偏置向量； σ( ·)是非线性激活函数sigmoid(x)， tanh()为双曲正切函数，表示向量拼接操作， ⊙表示向量点积操作；权　利　要　求　书 2/5 页 3 CN 114281999 A 3

专利 一种基于用户知识的个性化隐式情感分析方法与系统

专利一种基于用户知识的个性化隐式情感分析方法与系统