专利 一种基于图表示学习的知识图谱跨语言对齐方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210020693.5 (22)申请日 2022.01.10 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人李昌赫　张华平　商建云　 (74)专利代理机构北京正阳理工知识产权代理事务所(普通合伙) 11639 专利代理师张利萍 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/31(2019.01) G06F 16/951(2019.01) G06F 16/35(2019.01) G06F 40/263(2020.01)G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称一种基于图表示学习的知识图谱跨语言对齐方法 (57)摘要本发明涉及一种基于图表示学习的知识图谱跨语言对齐方法，属于自然语言处理技术领域。在知识图谱构建阶段，通过爬取网站数据作为来源。然后，过滤筛选多语言实体并抽取其结构化数据组成三元组，构建知识图谱。在对齐阶段，通过图表示学习，将不同来源的知识图谱生成对应的嵌入矩阵，在图嵌入基础上，依靠已对齐实体，将不同语言知识图谱中的实体合并到统一的空间中，并根据实体在联合语义空间中的距离进行对齐。本方法充分利用了知识图谱结构信息，通过图表示学习方法将不同语言知识图谱中的实体合并到统一的空间中，并根据实体在联合语义空间中的距离进行对齐，保证了融合后的数据更准确全面，提高了在跨语言领域进行快速分析和智能搜索的效率。权利要求书2页说明书6页附图4页 CN 114443855 A 2022.05.06 CN 114443855 A 1.一种基于图表示学习的知识图谱跨语言对齐方法，其特征在于，包括以下步骤：步骤1：获取多语言数据，包括以下步骤：首先，爬取百科类多语言网站数据，并以html格式存到本地；然后，对爬取到的数据进行分类，去除脏数据；步骤2：解析根据步骤1得到的html格式的多语言数据，处理成三元组类型的json格式数据；步骤3：根据步骤2得到的jso n格式数据建立多语言知识图谱，包括以下步骤：步骤3.1：针对爬到的不同来源的数据建立索引；步骤3.2：根据步骤3.1建立的索引，对不同来源的数据分别构建知识图谱；步骤4：根据步骤3得到的不同来源的多语言知识图谱，嵌入到统一的向量空间，包括以下步骤：步骤4.1：关系嵌入，其中，对于由步骤3得到的每种不同来源的知识图谱，都分别进行关系嵌入；步骤4.2：嵌入空间变换，方法如下：第一步：随机初始化网络的权重矩阵M；第二步：将步骤2中得到的种子对齐实体和根据步骤4.1得到的各种不同来源的知识图谱的关系嵌入表达输入到全连接层中，训练矩阵M；第三步：根据第二步得到的矩阵M，将不同来源的知识图谱编码进一个统一的嵌入空间中；步骤5：在向量空间中计算实体之间的距离并对齐。 2.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法，其特征在于，步骤1中对数据进行分类，采用以下方法：第一步：遍历存到本地的数据，得到包含所有数据的实体名称的列表；第二步：根据第一步得到的数据实体名称列表，随机抽取M条数据，将这M条数据进行人工标注，划分为训练集及验证集；第三步：使用Bert模型对第二步中得到的训练集进行预训练微调，在验证集进行交叉验证，当准确度达到90％以上后，将第二步中得到的全部M条数据输入到Bert模型中进行训练，得到完整的预训练模型；第四步：使用第三步中得到的预训练模型，对第一步中得到的包含所有数据实体名称的列表进行分类，去除掉爬取结果中的脏数据，得到最终的包含数据实体名称的列表；第五步：根据最终的包含数据实体名称的列表，对存在本地的html数据进行筛选保存。 3.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法，其特征在于，步骤2包括以下步骤：首先，对步骤1得到的html格式的多语言数据进行遍历，找到其中的表格信息；然后，根据上述的表格信息，抽取其中的文字内容，根据数据实体名称建立实体—关系—实体三元组；最后，将上述得到的三元组，存储为json格式数据文件，保存在本地，并对一部分三元组进行打标，得到种子对齐实体。 4.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法，其特征在于，权　利　要　求　书 1/2 页 2 CN 114443855 A 2步骤3中，建立知识图谱采用以下方法：第一步：根据步骤2得到的json格式数据文件，遍历每种语言数据的三元组，得到其头节点、关系、尾节点；第二步：根据第一步得到的头节点、关系和尾节点，针对数据实体名称建立字段，得到每种语言数据的全部属性信息；第三步：根据步骤3.1建立的索引，找到不同来源的数据，对于同一来源的数据，利用 py2neo库进行标记，并将第二步得到的数据导入关系型数据库Neo4j，根据不同数据源和语种，分别建立知识图谱。 5.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法，其特征在于，步骤4.1中，关系嵌入的步骤如下：第一步：根据步骤3得到的每种不同来源的知识图谱，按照其实体—关系—实体的结构，建立知识图谱的邻接矩阵A；第二步：为第一步得到的邻接矩阵添加自环I， I 为单位矩阵，得到矩阵第三步：计算第二步得到的矩阵的对角度矩阵第四步：随机初始化网络的权重矩阵W；第五步：计算第二步得到的矩阵的特征矩阵H(i)；第六步：基于式(1)，根据第五步得到的当前层的特征矩阵H(i)，计算该层的输出H(i+1)， H (i+1)即为知识图谱的关系嵌入表达形式；其中， σ 表示激活函数。 6.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法，其特征在于，步骤5包括以下步骤：第一步：根据步骤3得到的多语言知识图谱，遍历其中某一种数据来源的知识图谱中的实体；第二步：根据步骤4得到的向量空间，对上述每个实体进行映射，得到每个实体的向量表达形式；第三步：遍历所有其他数据来源知识图谱中实体的向量表达形式，将第二步中得到的每个实体的向量表达形式与其进行余弦相似度计算，将计算结果存入结果表中；第四步：将上述结果表进行降序排序，得分最高的即为第一步中所选知识图谱的各实体的对齐实体；第五步：将第四步得到的对齐实体，加入到第一步中所选的知识图谱中，得到最终的知识图谱跨语言对齐结果。权　利　要　求　书 2/2 页 3 CN 114443855 A 3

专利 一种基于图表示学习的知识图谱跨语言对齐方法

专利一种基于图表示学习的知识图谱跨语言对齐方法