专利 一种知识图谱实体对齐方法、系统、设备与存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210022610.6 (22)申请日 2022.01.10 (71)申请人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人徐童　陈恩红　陈力以　李徵　武晗　 (74)专利代理机构北京凯特来知识产权代理有限公司 1 1260 代理人郑立明　韩珂 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/583(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06V 10/40(2022.01) G06V 10/56(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) (54)发明名称一种知识图谱实体对齐方法、系统、设备与存储介质 (57)摘要本发明公开了一种知识图谱实体对齐方法、系统、设备与存储介质，对于不同的两个多模态知识图谱采用共享参数的多模态孪生网络结构实现实体的表征，通过挖掘跨模态的语义关联和多角度对比正负实体对的特征来利用和实体相关的多模态信息，能够有效提升多模态实体对齐任务的准确性。权利要求书4页说明书9页附图1页 CN 114357193 A 2022.04.15 CN 114357193 A 1.一种知识图谱实体对齐方法，其特征在于，包括：训练阶段，通过多模态知识嵌入网络提取实体特征，其中：对于每一实体，从对应图像中提取相应的视觉特征，并基于视觉特征对预训练的BERT模型提取的属性特征进行视觉自适应处理，获得最终的属性特征，以及采用针对关系的视觉增强机制对图谱嵌入模型提取的关系特征进行视觉增强处理，获得最终的关系特征，再将视觉特征、最终的关系特征与最终的属性特征整合为整体的实体表征；并且，利用来自不同知识图谱的两个实体的单模态特征和整体的实体表征进行相似度对比学习，所述单模态特征包括：视觉特征、最终的关系特征与最终的属性特征；利用视觉增强处理时的损失函数与对比学习的损失函数构建总损失函数进行训练，更新多模态知识嵌入网络的参数；训练完毕后，利用训练后的多模态知识嵌入网络获得更新后的实体的整体的实体表征；对于两个不同知识图谱中的实体，通过更新后的整体的实体表征，两两进行相似度计算，选择相似度最高的两个实体作为对齐实体。 2.根据权利要求1所述的一种知识图谱实体对齐方法，其特征在于，所述对于每一实体，从对应图像中提取相应的视觉特征包括：对于实体e，利用残差网络模型从对应图像i中提取特征，并通过线性变换获得投影到对应空间，获得相应的视觉特征，表示为： ie＝ResNet(i) eI＝W1·ie+b1 其中， ResNet表示残差网络模型， ie表示残差网络模型从图像i中提取的特征， eI表示相应的视觉特征， W1与b1表示线性变换的权重与偏置参数。 3.根据权利要求1所述的一种知识图谱实体对齐方法，其特征在于，采用针对关系的视觉增强机制对图谱嵌入模型提取的关系特征进行视觉增强处理，获得最终的关系特征包括：训练阶段，利用正负样本，结合图谱嵌入模型的损失函数以及视觉增强的损失函数优化图谱嵌入模型；其中，正样本是指三元关系组的关系正确，即头尾实体满足相应的关系r，负样本是指三元关系组关系不正确，即头尾实体不满足相应的关系r；正样本表示为(h,r, t)， h与t分别为头实体与尾实体；负样本表示为(h′,r,t′)， h′与t′分别为头实体与尾实体；通过图谱嵌入模型提取正负样本中头实体与尾实体的实体嵌入向量，以及关系的嵌入向量，并带入图谱嵌入模型的损失函数进行计算；计算视觉增强的损失函数时，先通过残差网络与线性变换获得正负样本对应图像的视觉特征，再结合图谱嵌入模型提取的关系嵌入向量带入视觉增强的损失函数进行计算；训练完毕后，通过图谱嵌入模型提取实体嵌入向量作为相应实体最终的关系特征。 4.根据权利要求3所述的一种知识图谱实体对齐方法，其特征在于，图谱嵌入模型的损失函数数表示为：权　利　要　求　书 1/4 页 2 CN 114357193 A 2其中， TR表示正样本集合， T ′R表示负样本集合； (h,r,t)＝τ， (h ′,r,t′)＝τ′， hR、 h′R各自表示头实体h、头实体h ′的实体嵌入向量， tR、 t′R各自表示尾实体t、尾实体t ′的实体嵌入向量， hr表示关系r的嵌入向量，实体嵌入向量与关系r的嵌入向量均为图谱嵌入模型的输出； Υr表示得分间隔， fr(.)表示得分函数。 5.根据权利要求3或4所述的一种知识图谱实体对齐方法，其特征在于，视觉增强的损失函数表示为：其中， fi(.)表示得分函数， Υi表示得分间隔，分别表示头实体h与尾实体t对应图像的视觉特征，分别表示头实体h ′与尾实体t ′对应图像的视觉特征；其中，头实体h与尾实体t对应图像的视觉特征提取过程表示为：其中， ResNet表示残差网络模型，分别表示头实体h、尾实体t对应的图像， ih、 it分别表示残差网络模型从图像中提取的特征， W2与b2表示线性变换的权重与偏置参数；视觉特征以及实体嵌入向量tR，满足： tR≈hR+hr 6.根据权利要求1所述的一种知识图谱实体对齐方法，其特征在于，所述基于视觉特征对通过预训练的BERT模型提取的属性特征进行视觉自适应处理包括：通过预训练的BERT模型提取属性特征，步骤包括：对于实体的每一属性，通过预训练的BERT模型提取属性名称的词向量，并进行平均后进行第一次线性变换，获得属性名称特征；同时，将相应属性值做归一化后平铺构成数值向量，并与相应的属性名称特征进行拼接再进行第二次线性变换，获得每一属性的特征，表示为： a＝W3·Avg(BERT(ω1,ω2,…))+b3 s＝W4·a||v+b3 其中， a表示属性名称特征， ω1,ω2,…表示属性名称中的单次， BERT表示预训练的BERT 模型， Avg表示求平均， s表示属性的特征， v表示平铺构成的数值向量， W3与b3、 W4与b4分别为两次线性变换的权重与偏置参数；对于实体 e，将视觉特征eI与每一属性的特征进行点乘，得到对应属性的注意力权重值，再利用注意力权重值进行加权求和得到增强后的属性特征，表示为：权　利　要　求　书 2/4 页 3 CN 114357193 A 3

专利 一种知识图谱实体对齐方法、系统、设备与存储介质

专利一种知识图谱实体对齐方法、系统、设备与存储介质