standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210003724.6 (22)申请日 2022.01.04 (71)申请人 山西大学 地址 030006 山西省太原市坞城路9 2号 (72)发明人 廖健 王素格 郑建兴  (74)专利代理 机构 山西科汇联创知识产权代理 事务所 (特殊普通合伙) 14126 代理人 胡新瑞 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06N 5/02(2006.01) G06F 40/30(2020.01) (54)发明名称 一种基于用户知识的个性化隐式情感分析 方法与系统 (57)摘要 本发明公开了计算机文本数据挖掘与隐式 情感分析技术领域的一种基于用户知识的个性 化隐式情感分析方法和系统, 该方法通过对用户 的内容知识、 社会化属性知识进行建模, 得到用 户的内部知识表示; 针对用户的外部知识, 利用 社会网络关系学习用户的社会化 关系表示; 将用 户的知识与文本序列信息相融合进行隐式情感 分析, 本发 明解决了隐式情感分析中用户个性化 建模的问题, 在学习速度和模型精度上均有良好 的提升效果。 权利要求书5页 说明书14页 附图5页 CN 114281999 A 2022.04.05 CN 114281999 A 1.一种基于用户知识的个性 化隐式情感分析 方法, 其特 征在于: 包括以下步骤: S1: 使用开 放领域文本及交 互数据, 构建用户外 部信息和用户内部信息库; 其中, 所述的用户外部信息包括用户的社会化关注关系, 通过矩阵A进行表示; 所述的 用户内部信息库包括用户id、 用户发布内容集合C以及用户基本信息集合I; 待分析隐式情 感句标记为s; S2: 将用户基本信息集合I输入B ert预训练模型获取其向量表示, 将向量拼接获取用户 基本信息I的特 征表示Ei; S3: 使用开 放情感常识知识库, 利用句子 ‑词汇的匹配关系构建知识图谱G; S4: 根据基于知识嵌入的多极性注意力模型结合步骤S3中所述的知识图谱G, 获取步骤 S1中所述的用户发布内容集合C的特征表示为Ec, 以及待分析隐式情感句子序列特征表示 为Hs; S5: 根据UD ‑GCN模型, 以步骤S1中获取的矩阵A为输入获取用户社会化关系特征表示为 Eu; S6: 根据堆栈注意力模型, 将步骤S2、 S4、 S5中获取的用户基本信息集合I的特征Ei、 用户 发布内容集合C的特征Ec、 用户社会化关系特征Eu与隐式情感句子序列特征Hs进行融合学 习, 获取用户知识嵌入的隐式情感句子语义表示H; S7: 根据正交注意力机制模型, 对步骤S6中获取的用户知识嵌入的隐式情感句子语义 表示H进行优化训练, 通过全连接层预测该句子的隐式情感标签 2.根据权利要求1所述的一种基于用户知识的个性化隐式情感分析方法, 其特征在于: 步骤S1中构建的用户社会化关注 关系矩阵 n为输入数据集包含的用户个数, Aij∈ {0,1,2,3}表示用户i与用户j之间的社会化关注关系, 包括i关注j、 j关注i、 ij互相关注以 及无关系四种类型, 用户的基本信息集 合I包括用户性别、 地 域以及个人签名信息 。 3.根据权利要求1所述的一种基于用户知识的个性化隐式情感分析方法, 其特征在于: 步骤S3中所述开放情感常识知识库的知识以三元组形式呈现, 形式为T=<h, r, t>, 其中, h 为头实体, r 为实体间的关系, t 为尾实体。 开放情感词典库 记为d, 需要进 行知识匹配的句子 记为S, 步骤S3中所述句子 ‑词汇匹配关系定义包括如下四种: (1)情感常识三元组筛选: 主要用于获取带情 感信息的三元组, 使用三元组与情 感词匹 配, 确保三元组中的h或t包 含情感词, 即h∈d或t∈d, 且h和t不会同时包 含词典d中的词; (2)文本相关三元组筛选: 主要用于获取与文本相关的三元组, 使用隐式情 感数据与筛 选后的数据匹配, 仅当三元组中的h或t存在于句子S中时, 即h∈S或t∈S, 且h和t不会同时 存在于S中, 保留此三元组; (3)关系类型筛选: 主要用于获取合适关系类型的三元组, 通过人工对一定关系下的三 元组的合理性进行判别, 即判别h、 t和r之间是否出现逻辑问题, 选取前十种匹配得到的最 多三元组的关系类型, 作为要引入的三元组; (4)语义相关三元组筛选: 主要用于获取与隐式情 感句语义相关的三元组, 把三元组转 化为一个句子表达以计算其与句子的语义相似度, 使用Bert模型学习自然语言形式的三元 组表达和隐式情感句的表示, 并进行余弦相似度计算, 所述 余弦相似度计算公式为:权 利 要 求 书 1/5 页 2 CN 114281999 A 2其中, E1和E2表示三元组转化的句子与隐式情感句子分别输入B ert模型学习得到的向 量, 对筛选出的三元组计算 余弦值并降序排列, 选取相似度值前七的三元组引入文本中。 4.根据权利要求1所述的一种基于用户知识的个性化隐式情感分析方法, 其特征在于: 所述步骤S4具体步骤为: S4.1: 对于用户ui发布内容 集合C中的句子, 将其 合并成一个长文本Si; S4.2: 根据步骤S3中获取的知识图谱 G, 合并获取Si的知识图谱Gi, 使用TransE模型学习 获取图谱Gi中的各知识实体h/t及关系r的特征表示向量Eh/Et、 Er, 使其满足关系: Eh‑Et≈ Er; S4.3: 通过图注意力层对图谱Gi进行编码, 将Gi中各知识三元组的实体向量表示拼接, 并分别动态计算它 们的权重, βik=(Wrrik)σ(Whhik+Wttik) 其中, Gi为长文本Si的知识图谱的向量表示, 假设图谱Gi共包括l条知识三元 组, 分别表示图谱Gi中的第k组知识三元组gik=<h, r, t>的向量表示, 表 示向量拼接操作, αik是三元组gik的归一化权重, exp(x)=ex为以自然常数e为底的指数函 数, βik为三元组gik的权重得分, Wh,Wt和 分别是hik,tik和rik的参数矩阵, σ( ·)是 非线性激活函数tanh(x),T表示向量 转置。 将词xi的表示wi与知识图谱的表示Gi拼接 将et作为BiLSTM的输入单元, 进 行序列建模学习; Ht=ot⊙tanh(ct) 其中, Wi,Wf和Wo分别为输入门it、 遗忘门ft、 输出门οt中激活层的参数矩阵; 表示临时 信息的向量表示, ct是控制内部信息传递的变量; Ht、 Ht‑1分别为t时刻与t ‑1时刻隐层的输 出, bf,bi,bo和bc为偏置向量; σ( ·)是非线性激活函数sigmoid(x), tanh()为双曲正切函 数, 表示向量 拼接操作, ⊙表示向量 点积操作;权 利 要 求 书 2/5 页 3 CN 114281999 A 3

PDF文档 专利 一种基于用户知识的个性化隐式情感分析方法与系统

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于用户知识的个性化隐式情感分析方法与系统 第 1 页 专利 一种基于用户知识的个性化隐式情感分析方法与系统 第 2 页 专利 一种基于用户知识的个性化隐式情感分析方法与系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。