(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210111600.X
(22)申请日 2022.01.29
(71)申请人 国网四川省电力公司经济技 术研究
院
地址 610000 四川省成 都市中国 (四川) 自
由贸易试验区成都市高新区蜀绣西路
366号
(72)发明人 罗劲瑭 姚实颖 王进 徐杰
杨宇玄 陈一鸣 祝和春 高栋梁
曾鉴 张全明 倪江
(74)专利代理 机构 成都行之专利代理事务所
(普通合伙) 51220
专利代理师 张杨
(51)Int.Cl.
G06F 40/216(2020.01)G06F 40/30(2020.01)
G06F 16/36(2019.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
(54)发明名称
一种面向知识图谱的联合实体消歧方法及
系统
(57)摘要
本发明公开了一种面向知识图谱的联合实
体消歧方法及系统, 系统包括实体指称项排序模
块、 复合特征学习模块、 候选实体决策模块; 其
中, 实体指称项排序模块: 用于对所有实体指称
项进行消歧难易程度排序, 确定系统消歧顺序,
得到消歧任务序列; 复合特征学习模块: 用于对
消歧任务序列中的实体指称项依次进行特征学
习, 包括局部特征和全局特征, 形成适合消歧任
务的复合特征数据集; 候选实体决策模块: 根据
复合特征学习模块得到的复合特征数据集, 用于
构建和训练动态实体消歧决策网络, 并通过动态
实体消歧决策网络得到消歧决策策略, 进行实体
指称项的动态实体消歧。
权利要求书3页 说明书7页 附图1页
CN 114492395 A
2022.05.13
CN 114492395 A
1.一种面向知识图谱的联合实体消歧方法, 其特 征在于, 包括如下步骤:
T1: 对待消岐实体指称项进行消歧难易程度排序, 确定系统消歧顺序, 得到消歧任务序
列;
T2: 针对消歧任务序列中的实体指称项依次进行特征学习, 包括局部特征和全局特征,
得到适合消歧任务的复合特 征数据集;
T3: 构建动态实体消歧决策网络, 以复合特征训练集、 复合特征验证集为输入, 训练动
态实体消歧决策网络;
T4: 以复合特征测试集为输入, 通过训练好的动态实体消歧决策网络得到消歧决策策
略, 进行实体指称项的动态实体消歧。
2.根据权利要求1所述的一种面向知识图谱的联合实体消歧方法, 其特征在于, 通过各
实体指称项对应的所有候选实体的先验概 率分布来判断步骤T1所述的消歧难易 程度。
3.根据权利要求1所述的一种面向知识图谱的联合实体消歧方法, 其特征在于, 步骤T1
所述的各实体指称项的消歧难易 程度计算方式为:
式中, Rj表示第j个实体指称项的消歧难易程度, Pi表示第j个实体指称项的第i个候选
实体的先验概率, n表示第j个实体指称项对应的候选实体的个数, i和j为无具体定义的变
量。
4.根据权利要求2或3任意一项所述的一种面向知识图谱的联合实体消歧方法, 其特征
在于, 分别对多个选定网络语料库中的实体指称项超链接进行概率统计, 将平均值作为候
选实体的先验概 率。
5.根据权利要求1所述的一种面向知识图谱的联合实体消歧方法, 其特征在于, 步骤T2
所述的特 征学习具体包括以下子步骤:
T21: 采用word2vec模型对实体指称项的上下文信息、 实体指称项对应候选实体的描述
文本信息进行 预训练, 生成预训练向量;
其中, 获得指定实体指称项的上下文信息c, c={c1,c2,...,ct}, 上下文字数的窗口大
小为t;
获得指定实体指称项对应的第i个候选实体的描述文本信息wi, wi={wi1,wi2,...,wih},
描述文本 长度为h;
T22: 采用Transformer模型对指定实体指称项的上下文信息、 指定实体指称项对应候
选实体的描述文本信息 分别进行编码, 获得上下文信息向量C和第i个候选实体的描述文本
信息向量 Wi, 公式如下:
C=c'1,c'2,...,c’t=T(c1,c2,...,ct)
Wi=w’i1,w’i2,...,w’ih=T(wi1,wi2,...,wih)
其中, T表示Transformer模块;
T23: 通过前馈神经网络f获得第i个候选实体的标准化向量
生成指定实体指称项对
应的候选实体集的向量矩阵
其中, n为指定实体指称项对应的候选实体数量;
权 利 要 求 书 1/3 页
2
CN 114492395 A
2T24: 采用softmax函数分别获得候选实体向量和已链接的实体向量对上下文向量的注
意力系数矩阵, 再与上下文信息向量C相乘, 通过加权求和得到局部特征向量X1、 全局特征
向量X2;
T25: 将局部特征向量X1和全局特征向量X2通过一个前馈神经 网络f, 与指定 实体指称项
对应的候选实体集的向量矩阵
按列拼接, 获得动态实体消歧决策网络的复合特征向量
Einput。
6.根据权利要求5所述的一种面向知识图谱的联合实体消歧方法, 其特征在于, 步骤
T24所述的局部特 征向量X1的计算公式如下:
步骤T24所述的全局特 征向量X2的计算公式如下:
其中, d为训练向量 维度, m为已链接的实体指称项数量,
为第i个实体指称项已链接的
实体向量, 向量矩阵
7.根据权利要求5所述的一种面向知识图谱的联合实体消歧方法, 其特征在于, 步骤
T25所述的复合特 征向量Einput的计算公式如下:
X=f(X1,X2)
其中, concat表示concat函数。
8.一种面向知识图谱的联合实体消歧系统, 用于实现权利要求1 ‑7任意一项所述的一
种面向知识图谱的联合 实体消歧方法, 其特征在于, 包括 实体指称项排序模块、 复合特征学
习模块、 候选实体决策模块; 其中,
实体指称项排序模块: 用于对所有实体指称项进行消歧难易程度排序, 确定系统消歧
顺序, 得到消歧任务序列;
复合特征学习模块: 用于对消歧任务序列中的实体指称项依次进行特征学习, 包括局
部特征和全局特 征, 形成适 合消歧任务的复合特 征数据集;
候选实体决策模块: 根据复合特征学习模块得到的复合特征数据集, 用于构建和训练
动态实体消歧决策网络, 并通过动态实体消歧决策网络得到消歧决策策略, 进行实体指称
项的动态实体消歧。
9.根据权利要求7所述的一种面向知识图谱的联合实体消歧系统, 其特征在于, 所述实
体指称项排序模块包括 候选实体不确定度量 化单元和排序单 元, 其中,权 利 要 求 书 2/3 页
3
CN 114492395 A
3
专利 一种面向知识图谱的联合实体消歧方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:39上传分享