standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210020693.5 (22)申请日 2022.01.10 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 李昌赫 张华平 商建云  (74)专利代理 机构 北京正阳理工知识产权代理 事务所(普通 合伙) 11639 专利代理师 张利萍 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/31(2019.01) G06F 16/951(2019.01) G06F 16/35(2019.01) G06F 40/263(2020.01)G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 一种基于图表示学习的知识图谱跨语言对 齐方法 (57)摘要 本发明涉及一种基于图表示学习的知识图 谱跨语言对齐方法, 属于自然语言处理技术领 域。 在知识图谱构建阶段, 通过爬取网站数据作 为来源。 然后, 过滤筛选多语言实体并抽取其结 构化数据组成三元组, 构建知识图谱。 在对齐阶 段, 通过图表示学习, 将不同来源的知识图谱生 成对应的嵌入矩阵, 在图嵌入基础上, 依靠已对 齐实体, 将不同语 言知识图谱中的实体合并到统 一的空间中, 并根据实体在联合语义空间中的距 离进行对齐。 本方法充分利用了知识图谱结构信 息, 通过图表 示学习方法将不同语 言知识图谱中 的实体合并到统一的空间中, 并根据实体在联合 语义空间中的距离进行对齐, 保证了融合后的数 据更准确全面, 提高了在跨语言领域进行快速分 析和智能搜索的效率。 权利要求书2页 说明书6页 附图4页 CN 114443855 A 2022.05.06 CN 114443855 A 1.一种基于图表示学习的知识图谱跨语言对齐方法, 其特 征在于, 包括以下步骤: 步骤1: 获取多语言数据, 包括以下步骤: 首先, 爬取百科类多语言网站数据, 并以html格式存到 本地; 然后, 对爬取到的数据进行分类, 去除脏数据; 步骤2: 解析根据步骤1得到的html格式的多语言数据, 处理成三元组类型的json格式 数据; 步骤3: 根据步骤2得到的jso n格式数据建立多语言知识图谱, 包括以下步骤: 步骤3.1: 针对爬 到的不同来源的数据建立索引; 步骤3.2: 根据步骤3.1建立的索引, 对不同来源的数据分别构建知识图谱; 步骤4: 根据步骤3得到的不同来源的多语言知识图谱, 嵌入到统一的向量空间, 包括以 下步骤: 步骤4.1: 关系嵌入, 其中, 对于由步骤3得到的每种不同来源的知识图谱, 都分别进行 关系嵌入; 步骤4.2: 嵌入空间变换, 方法如下: 第一步: 随机初始化网络的权 重矩阵M; 第二步: 将步骤2中得到的种子对齐实体和根据步骤4.1得到的各种不同来源的知识图 谱的关系嵌入表达 输入到全连接层中, 训练矩阵M; 第三步: 根据第 二步得到的矩阵M, 将不同来源的知识图谱编码进一个统一的嵌入空间 中; 步骤5: 在向量空间中计算实体之间的距离并对齐。 2.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法, 其特征在于, 步骤1中对数据进行分类, 采用以下 方法: 第一步: 遍历存到 本地的数据, 得到包 含所有数据的实体名称的列表; 第二步: 根据第 一步得到的数据实体名称列表, 随机抽取M条数据, 将这M条数据进行人 工标注, 划分为训练集及验证集; 第三步: 使用Bert模型对第二步中得到的训练集进行预训练微调, 在验证集进行交叉 验证, 当准确度达到90%以上后, 将第二步中得到的全部M条数据输入到Bert模型中进 行训 练, 得到完整的预训练模型; 第四步: 使用第三步中得到的预训练模型, 对第一步中得到的包含所有数据实体名称 的列表进行分类, 去除掉爬取 结果中的脏数据, 得到最终的包 含数据实体名称的列表; 第五步: 根据最终的包 含数据实体名称的列表, 对 存在本地的html数据进行筛 选保存。 3.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法, 其特征在于, 步骤2包括以下步骤: 首先, 对步骤1得到的html格式的多语言数据进行遍历, 找到其中的表格信息; 然后, 根据上述的表格信息, 抽取其中的文字内容, 根据数据实体名称建立实体—关 系—实体三元组; 最后, 将上述得到的三元组, 存储为json格式数据文件, 保存在本地, 并对一部分三元 组进行打标, 得到种子对齐实体。 4.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法, 其特征在于,权 利 要 求 书 1/2 页 2 CN 114443855 A 2步骤3中, 建立知识图谱 采用以下 方法: 第一步: 根据步骤2得到的json格式数据文件, 遍历每种语言数据的三元组, 得到其头 节点、 关系 、 尾节点; 第二步: 根据第一步得到的头节点、 关系和尾节点, 针对数据实体名称建立字段, 得到 每种语言数据的全部属性信息; 第三步: 根据步骤3.1建立的索引, 找到不同来源的数据, 对于同一来源的数据, 利用 py2neo库进行标记, 并将第二步得到的数据导入关系型数据库Neo4j, 根据不同数据源和语 种, 分别建立知识图谱。 5.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法, 其特征在于, 步骤4.1中, 关系嵌入的步骤如下: 第一步: 根据步骤3得到的每种不同来源的知识图谱, 按照其实体—关系—实体的结 构, 建立知识图谱的邻接矩阵A; 第二步: 为第一 步得到的邻接矩阵添加自环I, I 为单位矩阵, 得到矩阵 第三步: 计算第二 步得到的矩阵 的对角度矩阵 第四步: 随机初始化网络的权 重矩阵W; 第五步: 计算第二 步得到的矩阵 的特征矩阵H(i); 第六步: 基于式(1), 根据第五步得到的当前层的特征矩阵H(i), 计算该层的输出H(i+1), H (i+1)即为知识图谱的关系嵌入表达形式; 其中, σ 表示激活函数。 6.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法, 其特征在于, 步骤5包括以下步骤: 第一步: 根据步骤3得到的多语言知识图谱, 遍历其中某一种数据来源的知识图谱中的 实体; 第二步: 根据步骤4得到的向量空间, 对上述每个实体进行映射, 得到每个实体的向量 表达形式; 第三步: 遍历所有其他数据来源知识图谱中实体的向量表达形式, 将第二步中得到的 每个实体的向量表达形式与其进行余弦相似度计算, 将计算结果存 入结果表中; 第四步: 将上述结果表进行降序排序, 得分最高的即为第一步中所选知识图谱的各实 体的对齐实体; 第五步: 将第四步得到的对齐实体, 加入到第 一步中所选的知识图谱中, 得到最终的知 识图谱跨语言对齐结果。权 利 要 求 书 2/2 页 3 CN 114443855 A 3

PDF文档 专利 一种基于图表示学习的知识图谱跨语言对齐方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于图表示学习的知识图谱跨语言对齐方法 第 1 页 专利 一种基于图表示学习的知识图谱跨语言对齐方法 第 2 页 专利 一种基于图表示学习的知识图谱跨语言对齐方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。