(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210003724.6
(22)申请日 2022.01.04
(71)申请人 山西大学
地址 030006 山西省太原市坞城路9 2号
(72)发明人 廖健 王素格 郑建兴
(74)专利代理 机构 山西科汇联创知识产权代理
事务所 (特殊普通合伙)
14126
代理人 胡新瑞
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06N 5/02(2006.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于用户知识的个性化隐式情感分析
方法与系统
(57)摘要
本发明公开了计算机文本数据挖掘与隐式
情感分析技术领域的一种基于用户知识的个性
化隐式情感分析方法和系统, 该方法通过对用户
的内容知识、 社会化属性知识进行建模, 得到用
户的内部知识表示; 针对用户的外部知识, 利用
社会网络关系学习用户的社会化 关系表示; 将用
户的知识与文本序列信息相融合进行隐式情感
分析, 本发 明解决了隐式情感分析中用户个性化
建模的问题, 在学习速度和模型精度上均有良好
的提升效果。
权利要求书5页 说明书14页 附图5页
CN 114281999 A
2022.04.05
CN 114281999 A
1.一种基于用户知识的个性 化隐式情感分析 方法, 其特 征在于: 包括以下步骤:
S1: 使用开 放领域文本及交 互数据, 构建用户外 部信息和用户内部信息库;
其中, 所述的用户外部信息包括用户的社会化关注关系, 通过矩阵A进行表示; 所述的
用户内部信息库包括用户id、 用户发布内容集合C以及用户基本信息集合I; 待分析隐式情
感句标记为s;
S2: 将用户基本信息集合I输入B ert预训练模型获取其向量表示, 将向量拼接获取用户
基本信息I的特 征表示Ei;
S3: 使用开 放情感常识知识库, 利用句子 ‑词汇的匹配关系构建知识图谱G;
S4: 根据基于知识嵌入的多极性注意力模型结合步骤S3中所述的知识图谱G, 获取步骤
S1中所述的用户发布内容集合C的特征表示为Ec, 以及待分析隐式情感句子序列特征表示
为Hs;
S5: 根据UD ‑GCN模型, 以步骤S1中获取的矩阵A为输入获取用户社会化关系特征表示为
Eu;
S6: 根据堆栈注意力模型, 将步骤S2、 S4、 S5中获取的用户基本信息集合I的特征Ei、 用户
发布内容集合C的特征Ec、 用户社会化关系特征Eu与隐式情感句子序列特征Hs进行融合学
习, 获取用户知识嵌入的隐式情感句子语义表示H;
S7: 根据正交注意力机制模型, 对步骤S6中获取的用户知识嵌入的隐式情感句子语义
表示H进行优化训练, 通过全连接层预测该句子的隐式情感标签
2.根据权利要求1所述的一种基于用户知识的个性化隐式情感分析方法, 其特征在于:
步骤S1中构建的用户社会化关注 关系矩阵
n为输入数据集包含的用户个数, Aij∈
{0,1,2,3}表示用户i与用户j之间的社会化关注关系, 包括i关注j、 j关注i、 ij互相关注以
及无关系四种类型, 用户的基本信息集 合I包括用户性别、 地 域以及个人签名信息 。
3.根据权利要求1所述的一种基于用户知识的个性化隐式情感分析方法, 其特征在于:
步骤S3中所述开放情感常识知识库的知识以三元组形式呈现, 形式为T=<h, r, t>, 其中, h
为头实体, r 为实体间的关系, t 为尾实体。 开放情感词典库 记为d, 需要进 行知识匹配的句子
记为S, 步骤S3中所述句子 ‑词汇匹配关系定义包括如下四种:
(1)情感常识三元组筛选: 主要用于获取带情 感信息的三元组, 使用三元组与情 感词匹
配, 确保三元组中的h或t包 含情感词, 即h∈d或t∈d, 且h和t不会同时包 含词典d中的词;
(2)文本相关三元组筛选: 主要用于获取与文本相关的三元组, 使用隐式情 感数据与筛
选后的数据匹配, 仅当三元组中的h或t存在于句子S中时, 即h∈S或t∈S, 且h和t不会同时
存在于S中, 保留此三元组;
(3)关系类型筛选: 主要用于获取合适关系类型的三元组, 通过人工对一定关系下的三
元组的合理性进行判别, 即判别h、 t和r之间是否出现逻辑问题, 选取前十种匹配得到的最
多三元组的关系类型, 作为要引入的三元组;
(4)语义相关三元组筛选: 主要用于获取与隐式情 感句语义相关的三元组, 把三元组转
化为一个句子表达以计算其与句子的语义相似度, 使用Bert模型学习自然语言形式的三元
组表达和隐式情感句的表示, 并进行余弦相似度计算, 所述 余弦相似度计算公式为:权 利 要 求 书 1/5 页
2
CN 114281999 A
2其中, E1和E2表示三元组转化的句子与隐式情感句子分别输入B ert模型学习得到的向
量,
对筛选出的三元组计算 余弦值并降序排列, 选取相似度值前七的三元组引入文本中。
4.根据权利要求1所述的一种基于用户知识的个性化隐式情感分析方法, 其特征在于:
所述步骤S4具体步骤为:
S4.1: 对于用户ui发布内容 集合C中的句子, 将其 合并成一个长文本Si;
S4.2: 根据步骤S3中获取的知识图谱 G, 合并获取Si的知识图谱Gi, 使用TransE模型学习
获取图谱Gi中的各知识实体h/t及关系r的特征表示向量Eh/Et、 Er, 使其满足关系: Eh‑Et≈
Er;
S4.3: 通过图注意力层对图谱Gi进行编码, 将Gi中各知识三元组的实体向量表示拼接,
并分别动态计算它 们的权重,
βik=(Wrrik)σ(Whhik+Wttik)
其中, Gi为长文本Si的知识图谱的向量表示,
假设图谱Gi共包括l条知识三元
组,
分别表示图谱Gi中的第k组知识三元组gik=<h, r, t>的向量表示,
表
示向量拼接操作, αik是三元组gik的归一化权重, exp(x)=ex为以自然常数e为底的指数函
数, βik为三元组gik的权重得分, Wh,Wt和
分别是hik,tik和rik的参数矩阵, σ( ·)是
非线性激活函数tanh(x),T表示向量 转置。
将词xi的表示wi与知识图谱的表示Gi拼接
将et作为BiLSTM的输入单元, 进
行序列建模学习;
Ht=ot⊙tanh(ct)
其中, Wi,Wf和Wo分别为输入门it、 遗忘门ft、 输出门οt中激活层的参数矩阵;
表示临时
信息的向量表示, ct是控制内部信息传递的变量; Ht、 Ht‑1分别为t时刻与t ‑1时刻隐层的输
出, bf,bi,bo和bc为偏置向量; σ( ·)是非线性激活函数sigmoid(x), tanh()为双曲正切函
数,
表示向量 拼接操作, ⊙表示向量 点积操作;权 利 要 求 书 2/5 页
3
CN 114281999 A
3
专利 一种基于用户知识的个性化隐式情感分析方法与系统
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:02上传分享