standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210031549.1 (22)申请日 2022.01.12 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 高云君 陈璐 朱俊豪 葛丛丛 (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 应孔月 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 一种面向大规模知识图谱的多通道实体对 齐方法及装置 (57)摘要 本发明公开了一种面向大规模知识图谱的 多通道实体对齐方法及装置, 该方法包括: 获取 两个大规模知识图谱; 将两个大规模知识图谱中 已知的对齐的实体对添加到训练集; 根据两个大 规模知识图谱中每一个实体的名字, 提取语义特 征矩阵和字面特征矩阵; 根据所述语义特征矩阵 和字面特征矩阵, 构建名字特征矩阵; 根据所述 名字特征矩阵, 对训练集进行数据扩充; 根据扩 充后的训练集, 利用小批次生成策略, 将源知识 图谱和目标知识图谱划分成若干子图; 获取每个 子图中实体的结构特征并根据所述结构特征, 构 建结构特征矩阵; 对所述名字特征矩阵和结构特 征矩阵进行融合, 得到所述两个大规模知识图谱 的实体对齐结果。 权利要求书3页 说明书9页 附图4页 CN 114461812 A 2022.05.10 CN 114461812 A 1.一种面向大规模知识图谱的多通道实体对齐方法, 其特 征在于, 包括: 获取两个大规模知识图谱, 分别记为源知识图谱和目标知识图谱, 其中, 每个所述大规 模知识图谱 包括若干知识多元组, 每 个所述知识多元组包括两个实体; 将所述两个大规模知识图谱中已知的对齐的实体对添加到训练集; 根据所述两个大规模知识图谱中每一个实体的名字, 提取语义特征矩阵和字面特征矩 阵; 根据所述语义特征矩阵和字面特征矩阵, 构建名字特征矩阵, 将所述名字特征矩阵作 为名字特 征通道的输出; 根据所述名字特 征矩阵, 对训练集进行 数据扩充; 根据扩充后的训练集, 利用小批次生成策略, 将源知识图谱和目标知识图谱划分成若 干子图; 获取每个子 图中实体的结构特征并根据所述结构特征, 构建结构特征矩阵, 将所述结 构特征矩阵作为结构特 征通道的输出; 对所述名字特征矩阵和结构特征矩阵进行融合, 得到所述两个大规模知识图谱的实体 对齐结果。 2.根据权利要求1所述的方法, 其特征在于, 根据 所述两个大规模知识图谱中每一个实 体的名字, 提取语义特 征矩阵和字面特 征矩阵, 包括: 将所述两个大规模知识图谱中每一个实体的名字转换成标记序列; 为所有标记分配相同维度的嵌入向量并获取 所述标记对应的所述嵌入向量的最大值; 将所述标记对应的所述嵌入向量的最大值作为所述标记对应的实体名字的语义特 征; 根据源知识图谱和目标知识图谱中两两实体之间名字的语义特征的相似度, 构建语义 特征矩阵; 根据源知识图谱和目标知识图谱中两两实体之间名字的字面特征的相似度, 构建字面 特征矩阵。 3.根据权利要求1所述的方法, 其特征在于, 根据所述名字特征矩阵, 对训练集进行数 据扩充, 包括: 根据所述名字特征矩阵, 得到两个大规模知识图谱中每一个实体与另一大规模知识图 谱中所有实体的相似度; 若来自不同知识图谱的实体都恰好是在各自知识图谱中与另一实体的相似度最高的 实体, 则将一对实体作为对齐的实体; 将所有对齐的实体添加到训练集中。 4.根据权利要求1所述的方法, 其特征在于, 根据扩充后的训练集, 利用小批次生成策 略, 将源知识图谱和目标知识图谱划分成若干 子图, 包括: 为所述源知识图谱和目标知识图谱中的连边分配相同的权 重; 将所述源知识图谱划分成若干 子图, 每个子图包 含若干第一实体; 获取与所述第一实体对应的目标知识图谱中的第二实体; 在随机选取的预定数量的第二实体和其余第二实体之间加上虚构连边并为所述虚构 连边设置远大于1的权 重; 如果训练集中两个来自源知识图谱的实体之间不存在虚拟连边且对应的两个来自目权 利 要 求 书 1/3 页 2 CN 114461812 A 2标知识图谱的实体之间存在虚拟连边, 那么将这些来自目标知识图谱的实体之 间的连边权 重设置为0; 根据设定的权 重, 将目标知识图谱划分为若干 子图。 5.一种面向大规模知识图谱的多通道实体对齐装置, 其特 征在于, 包括: 获取模块, 用于获取两个大规模知识图谱, 分别记为源知识图谱和目标知识图谱, 其 中, 每个所述大规模知识图谱 包括若干知识多元组, 每 个所述知识多元组包括两个实体; 添加模块, 用于将所述两个大规模知识图谱中已知的对齐的实体对添加到训练集; 提取模块, 用于根据所述两个大规模知识图谱中每一个实体的名字, 提取语义特征矩 阵和字面特 征矩阵; 第一构建模块, 用于根据 所述语义特征矩阵和字面特征矩阵, 构建名字特征矩阵, 将所 述名字特 征矩阵作为名字特 征通道的输出; 扩充模块, 用于根据所述名字特 征矩阵, 对训练集进行 数据扩充; 划分模块, 用于根据扩充后的训练集, 利用小批次生成策略, 将源知识图谱和目标知识 图谱划分成若干 子图; 第二构建模块, 用于获取每个子 图中实体的结构特征并根据所述结构特征, 构建结构 特征矩阵, 将所述结构特 征矩阵作为结构特 征通道的输出; 融合模块, 用于对所述名字特征矩阵和结构特征矩阵进行融合, 得到所述两个大规模 知识图谱的实体对齐结果。 6.根据权利要求5所述的装置, 其特征在于, 根据 所述两个大规模知识图谱中每一个实 体的名字, 提取语义特 征矩阵和字面特 征矩阵, 包括: 将所述两个大规模知识图谱中每一个实体的名字转换成标记序列; 为所有标记分配相同维度的嵌入向量并获取 所述标记对应的所述嵌入向量的最大值; 将所述标记对应的所述嵌入向量的最大值作为所述标记对应的实体名字的语义特 征; 根据源知识图谱和目标知识图谱中两两实体之间名字的语义特征的相似度, 构建语义 特征矩阵; 根据源知识图谱和目标知识图谱中两两实体之间名字的字面特征的相似度, 构建字面 特征矩阵。 7.根据权利要求5所述的装置, 其特征在于, 根据所述名字特征矩阵, 对训练集进行数 据扩充, 包括: 根据所述名字特征矩阵, 得到两个大规模知识图谱中每一个实体与另一大规模知识图 谱中所有实体的相似度; 若来自不同知识图谱的实体都恰好是在各自知识图谱中与另一实体的相似度最高的 实体, 则将一对实体作为对齐的实体; 将所有对齐的实体添加到训练集中。 8.根据权利要求5所述的装置, 其特征在于, 根据扩充后的训练集, 利用小批次生成策 略, 将源知识图谱和目标知识图谱划分成若干 子图, 包括: 为所述源知识图谱和目标知识图谱中的连边分配相同的权 重; 将所述源知识图谱划分成若干 子图, 每个子图包 含若干第一实体; 获取与所述第一实体对应的目标知识图谱中的第二实体;权 利 要 求 书 2/3 页 3 CN 114461812 A 3
专利 一种面向大规模知识图谱的多通道实体对齐方法及装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:57
上传分享
举报
下载
原文档
(1022.6 KB)
分享
友情链接
GB-T 22818-2008 钢纸原纸.pdf
NB-T 10882—2021 梯级水库群安全风险防控导则.pdf
ISO 9241 820 2024 Ergonomics of human system interaction Part 820 Ergonomic guidance on interzctions in immersive environments including augmented reality and virtual reality.pdf
GB-T 22239-2019 信息安全技术 网络安全等级保护基本要求.pdf
CCSP Exam Guide AIO 第2版 英文版.pdf
GB-T 42752-2023 区块链和分布式记账技术 参考架构.pdf
信通院 - 2022年上半年电子行业运行数据报告.pdf
DL-T 1474—2021 交、直流系统用高压聚合物绝缘子憎水性测量及评估方法.pdf
T-ZMDS 10011—2021 近红外脑组织血氧监测仪参数测试方法.pdf
T-ZKJXX 00003—2021 基于三维空间信息技术的工程数字化交付技术规范.pdf
GBT 4109-2022 交流电压高于1000V的绝缘套管.pdf
信通院 量子信息技术发展与应用研究报告-2020年.pdf
DB22-T 2256-2018 杂交粳稻不育系鉴定规程 吉林省.pdf
GB-T 33658-2017 室内人体热舒适环境要求与评价方法.pdf
GB-T 20733-2022 数码照相机 术语.pdf
GB-T 28801-2012 气枪.pdf
GB-T 5156-2022 镁及镁合金热挤压型材.pdf
T-HNCAA 052—2023 公路桥梁结构健康监测系统实施和验收标准.pdf
启明星辰 信创的现状及工程建设思路.pdf
中国信通院郭雪 交互式应用程序安全测试工具能力要求 标准解读 2021.pdf
1
/
17
评价文档
赞助2.5元 点击下载(1022.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。