standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210020693.5 (22)申请日 2022.01.10 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 李昌赫 张华平 商建云 (74)专利代理 机构 北京正阳理工知识产权代理 事务所(普通 合伙) 11639 专利代理师 张利萍 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/31(2019.01) G06F 16/951(2019.01) G06F 16/35(2019.01) G06F 40/263(2020.01)G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 一种基于图表示学习的知识图谱跨语言对 齐方法 (57)摘要 本发明涉及一种基于图表示学习的知识图 谱跨语言对齐方法, 属于自然语言处理技术领 域。 在知识图谱构建阶段, 通过爬取网站数据作 为来源。 然后, 过滤筛选多语言实体并抽取其结 构化数据组成三元组, 构建知识图谱。 在对齐阶 段, 通过图表示学习, 将不同来源的知识图谱生 成对应的嵌入矩阵, 在图嵌入基础上, 依靠已对 齐实体, 将不同语 言知识图谱中的实体合并到统 一的空间中, 并根据实体在联合语义空间中的距 离进行对齐。 本方法充分利用了知识图谱结构信 息, 通过图表 示学习方法将不同语 言知识图谱中 的实体合并到统一的空间中, 并根据实体在联合 语义空间中的距离进行对齐, 保证了融合后的数 据更准确全面, 提高了在跨语言领域进行快速分 析和智能搜索的效率。 权利要求书2页 说明书6页 附图4页 CN 114443855 A 2022.05.06 CN 114443855 A 1.一种基于图表示学习的知识图谱跨语言对齐方法, 其特 征在于, 包括以下步骤: 步骤1: 获取多语言数据, 包括以下步骤: 首先, 爬取百科类多语言网站数据, 并以html格式存到 本地; 然后, 对爬取到的数据进行分类, 去除脏数据; 步骤2: 解析根据步骤1得到的html格式的多语言数据, 处理成三元组类型的json格式 数据; 步骤3: 根据步骤2得到的jso n格式数据建立多语言知识图谱, 包括以下步骤: 步骤3.1: 针对爬 到的不同来源的数据建立索引; 步骤3.2: 根据步骤3.1建立的索引, 对不同来源的数据分别构建知识图谱; 步骤4: 根据步骤3得到的不同来源的多语言知识图谱, 嵌入到统一的向量空间, 包括以 下步骤: 步骤4.1: 关系嵌入, 其中, 对于由步骤3得到的每种不同来源的知识图谱, 都分别进行 关系嵌入; 步骤4.2: 嵌入空间变换, 方法如下: 第一步: 随机初始化网络的权 重矩阵M; 第二步: 将步骤2中得到的种子对齐实体和根据步骤4.1得到的各种不同来源的知识图 谱的关系嵌入表达 输入到全连接层中, 训练矩阵M; 第三步: 根据第 二步得到的矩阵M, 将不同来源的知识图谱编码进一个统一的嵌入空间 中; 步骤5: 在向量空间中计算实体之间的距离并对齐。 2.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法, 其特征在于, 步骤1中对数据进行分类, 采用以下 方法: 第一步: 遍历存到 本地的数据, 得到包 含所有数据的实体名称的列表; 第二步: 根据第 一步得到的数据实体名称列表, 随机抽取M条数据, 将这M条数据进行人 工标注, 划分为训练集及验证集; 第三步: 使用Bert模型对第二步中得到的训练集进行预训练微调, 在验证集进行交叉 验证, 当准确度达到90%以上后, 将第二步中得到的全部M条数据输入到Bert模型中进 行训 练, 得到完整的预训练模型; 第四步: 使用第三步中得到的预训练模型, 对第一步中得到的包含所有数据实体名称 的列表进行分类, 去除掉爬取 结果中的脏数据, 得到最终的包 含数据实体名称的列表; 第五步: 根据最终的包 含数据实体名称的列表, 对 存在本地的html数据进行筛 选保存。 3.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法, 其特征在于, 步骤2包括以下步骤: 首先, 对步骤1得到的html格式的多语言数据进行遍历, 找到其中的表格信息; 然后, 根据上述的表格信息, 抽取其中的文字内容, 根据数据实体名称建立实体—关 系—实体三元组; 最后, 将上述得到的三元组, 存储为json格式数据文件, 保存在本地, 并对一部分三元 组进行打标, 得到种子对齐实体。 4.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法, 其特征在于,权 利 要 求 书 1/2 页 2 CN 114443855 A 2步骤3中, 建立知识图谱 采用以下 方法: 第一步: 根据步骤2得到的json格式数据文件, 遍历每种语言数据的三元组, 得到其头 节点、 关系 、 尾节点; 第二步: 根据第一步得到的头节点、 关系和尾节点, 针对数据实体名称建立字段, 得到 每种语言数据的全部属性信息; 第三步: 根据步骤3.1建立的索引, 找到不同来源的数据, 对于同一来源的数据, 利用 py2neo库进行标记, 并将第二步得到的数据导入关系型数据库Neo4j, 根据不同数据源和语 种, 分别建立知识图谱。 5.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法, 其特征在于, 步骤4.1中, 关系嵌入的步骤如下: 第一步: 根据步骤3得到的每种不同来源的知识图谱, 按照其实体—关系—实体的结 构, 建立知识图谱的邻接矩阵A; 第二步: 为第一 步得到的邻接矩阵添加自环I, I 为单位矩阵, 得到矩阵 第三步: 计算第二 步得到的矩阵 的对角度矩阵 第四步: 随机初始化网络的权 重矩阵W; 第五步: 计算第二 步得到的矩阵 的特征矩阵H(i); 第六步: 基于式(1), 根据第五步得到的当前层的特征矩阵H(i), 计算该层的输出H(i+1), H (i+1)即为知识图谱的关系嵌入表达形式; 其中, σ 表示激活函数。 6.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法, 其特征在于, 步骤5包括以下步骤: 第一步: 根据步骤3得到的多语言知识图谱, 遍历其中某一种数据来源的知识图谱中的 实体; 第二步: 根据步骤4得到的向量空间, 对上述每个实体进行映射, 得到每个实体的向量 表达形式; 第三步: 遍历所有其他数据来源知识图谱中实体的向量表达形式, 将第二步中得到的 每个实体的向量表达形式与其进行余弦相似度计算, 将计算结果存 入结果表中; 第四步: 将上述结果表进行降序排序, 得分最高的即为第一步中所选知识图谱的各实 体的对齐实体; 第五步: 将第四步得到的对齐实体, 加入到第 一步中所选的知识图谱中, 得到最终的知 识图谱跨语言对齐结果。权 利 要 求 书 2/2 页 3 CN 114443855 A 3
专利 一种基于图表示学习的知识图谱跨语言对齐方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:34:00
上传分享
举报
下载
原文档
(554.3 KB)
分享
友情链接
GB/T 40212-2021 工业机器人云服务平台分类及参考体系结构.pdf
专利 带检弯头和管道系统.PDF
GB-T 32894-2016 抽水蓄能机组工况转换技术导则.pdf
安全牛 AI防火墙技术白皮书.pdf
TB-T 2231.2-2018 铁道车辆制动系统 第2部分:货车.pdf
GB-T 34079.5-2021 基于云计算的电子政务公共平台服务规范 第5部分:移动服务.pdf
DB11-T 1484-2017 固定污染源废气挥发性有机物监测技术规范 北京市.pdf
T-CSAE 236—2021 质子交换膜燃料电池发动机 台架可靠性试验方法.pdf
GB-T 5462-2015 工业盐.pdf
SN-T 5476-2022 进境马属动物指定隔离检疫场建设规范.pdf
T-COS 013—2023 装甲车辆动力及传动系统试验要求.pdf
GB-T 28799.2-2020 冷热水用耐热聚乙烯(PE-RT)管道系统 第2部分:管材.pdf
奇安信的漏洞管理实践.pdf
MH-T 1020-2018 锂电池航空运输规范.pdf
GB-T 11436-2012 软磁铁氧体材料成品、半成品化学分析方法.pdf
GB-T 31960.7-2015 电力能效监测系统技术规范 第7部分:电力能效监测终端技术条件.pdf
信通院 数字时代治理现代化研究报告 2023年 ——大模型在政务领域....pdf
GB-Z 41288-2022 信息安全技术 重要工业控制系统网络安全防护导则.pdf
T-ZBLM 0001—2018 数据备份与恢复服务能力成熟度测评规范.pdf
GB-T 31495.1-2015 信息安全技术 信息安全保障指标体系及评价方法 第1部分:概念和模型.pdf
1
/
13
评价文档
赞助2.5元 点击下载(554.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。