standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210050995.7 (22)申请日 2022.01.17 (71)申请人 中国科学院空天信息创新研究院 地址 100094 北京市海淀区邓庄南路9号 申请人 郑州大学 (72)发明人 陈祖刚 李进 李国庆 李静 (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 刘亚平 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 数据查重方法、 装置及电子设备 (57)摘要 本发明提供一种数据查重方法、 装置及电子 设备; 涉及大数据处理技术领域; 能够针对科学 数据进行查重。 该方法包括获取待查重数据集的 元数据和实体数据; 基于元数据计算待查重数据 集与数据库中每个数据集的第一相关度, 第一相 关度为待查重数据集的元数据与数据库中数据 集的元数据之间的相关度; 根据第一相关度筛选 出数据库中需要再次进行查重的候选数据集; 基 于待查重 数据集的实体数据, 计算待查重数据集 与候选数据集的第二相关度, 第二相关度为待查 重数据集的实体数据与候选数据集的实体数据 之间的相关度; 根据第一相关度、 第二相关度确 定待查重数据集的查重结果。 权利要求书2页 说明书13页 附图9页 CN 114547233 A 2022.05.27 CN 114547233 A 1.一种数据查重方法, 其特 征在于, 包括: 获取待查重数据集的元数据和实体数据, 其中, 所述元数据用于描述所述待查重数据 集中包含的科学数据, 所述实体数据为所述待查重数据集中包 含的科学数据; 基于所述元数据计算所述待查重数据集与 数据库中每个数据集的第 一相关度, 所述第 一相关度为所述待查重数据集的所述元数据与所述数据库中数据集的元数据之间的相关 度; 根据所述第一相关度筛 选出所述数据库中 需要再次进行查重的候选数据集; 基于所述待查重数据集的实体数据, 计算所述待查重数据集与 所述候选数据集的第 二 相关度, 所述第二相关度为所述待查重数据集的所述 实体数据与所述候选数据集的实体数 据之间的相关度; 根据所述第一相关度、 所述第二相关度确定所述待查重数据集的查重结果。 2.根据权利要求1所述的数据查重方法, 其特征在于, 所述根据 所述第一相关度筛选出 所述数据库中 需要再次进行查重的候选数据集, 包括: 确定所述第 一相关度 是否在预设范围内, 将所述数据库中所述第 一相关度在预设范围 内的数据集作为所述 候选数据集; 将所述数据库中, 所述第 一相关度 大于所述预设范围内的数据集作为所述待查重数据 集的查重结果。 3.根据权利要求1所述的数据查重方法, 其特征在于, 所述基于所述元数据计算所述待 查重数据集与数据库中每 个数据集的第一相关度, 包括: 构建主题内容相似度算法; 通过所述主题内容相似度算法计算所述元数据与所述数据库中每个数据集的元数据 的第一相关度。 4.根据权利要求3所述的数据查重方法, 其特 征在于, 所述主题内容相似度算法, 包括: 通过语言知识库将所述待查重数据集的元 数据分为第一语义组和第一统计组, 以及 通过语言知识库将所述数据库中数据集的元 数据分为第二语义组和第二统计组; 计算所述第一语义组与所述第二语义组的相似度; 计算所述第一统计组与所述第二统计组中相匹配的词语的匹配概 率; 根据所述相似度之和与所述匹配概率, 确定所述待查重数据集与所述数据库中一数据 集的第一相关度。 5.根据权利要求1 ‑4任一项所述的数据查重方法, 其特征在于, 所述待查重数据集的所 述元数据包括题目、 关键词、 摘要中的一种或多种类型的数据。 6.根据权利要求2所述的数据查重方法, 其特征在于, 所述预设范围的取值大于0.6且 小于1。 7.根据权利要求1所述的数据查重方法, 其特征在于, 所述基于所述待查重数据集的实 体数据, 计算所述待查重数据集与所述 候选数据集的第二相关度, 包括: 获取所述待查重数据集的实体数据的第 一摘要编码, 以及所述候选数据集的实体数据 的第二摘要编码; 将所述第一摘要编码与所述第 二摘要编码进行匹配, 确定所述待查重数据集与所述候 选数据集的第二相关度。权 利 要 求 书 1/2 页 2 CN 114547233 A 28.根据权利要求1所述的数据查重方法, 其特征在于, 所述基于所述待查重数据集的实 体数据, 计算所述待查重数据集与所述 候选数据集的第二相关度, 包括: 获取所述待查重数据集的实体数据的第 一二进制码, 以及所述候选数据集的实体数据 的第二二进制码; 将所述第一二进制 码与所述第 二二进制 码进行匹配, 确定所述待查重数据集与所述候 选数据集的第二相关度。 9.根据权利要求1所述的数据查重方法, 其特征在于, 所述基于所述待查重数据集的实 体数据, 计算所述待查重数据集与所述 候选数据集的第二相关度, 包括: 确定所述待查重数据集的实体数据与候选数据集的实体数据的数据格式; 根据所述数据格式读取 所述待查重数据集的实体数据, 得到第一读取信息, 以及 根据所述数据格式读取 所述候选数据集的实体数据, 得到第二读取信息; 将相同数据格 式对应的所述第 一读取信 息与所述第 二读取信 息进行匹配, 确定所述待 查重数据集与所述 候选数据集的第二相关度。 10.一种数据查重装置, 其特 征在于, 包括: 数据获取模块, 用于获取待查重数据集的元数据和实体数据, 其中, 所述元数据用于描 述所述待查重数据集中包含的科学数据, 所述实体数据为所述待查重数据集中包含的科学 数据; 元数据对比模块, 用于基于所述元数据计算所述待查重数据集与数据库中每个数据集 的第一相关度, 所述第一相关度为所述待查重数据集的所述元数据与所述数据库中数据集 的元数据之间的相关度; 数据筛选模块, 用于根据所述第 一相关度筛选出所述数据库中需要再次进行查重的候 选数据集; 实体数据对比模块, 用于基于所述待查重数据集的实体数据, 计算所述待查重数据集 与所述候选数据集的第二相关度, 所述第二相关度为所述待查重数据集的所述实体数据与 所述候选数据集的实体数据之间的相关度; 结果确定模块, 用于根据所述第一相关度、 所述第二相关度确定所述待查重数据集的 查重结果。 11.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至9任一项所 述的数据查重方法。 12.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处 理器执行时实现如权利要求1至9任一项所述的数据查重方法。 13.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1至9任一项所述的数据查重方法。权 利 要 求 书 2/2 页 3 CN 114547233 A 3
专利 数据查重方法、装置及电子设备
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:53
上传分享
举报
下载
原文档
(1.0 MB)
分享
友情链接
GB-T 36527-2018 洁净室及相关受控环境 节能指南.pdf
专利 一种电源芯片质量检测方法及系统.PDF
GB 7000.204-2008 灯具 第2-4部分:特殊要求 可移式通用灯具.pdf
DB52-T 945-2015 热力输送管道节能技术规范 贵州省.pdf
GB-T 37804-2019 冬小麦苗情长势监测规范.pdf
DB11-T 388.4-2015 城市景观照明技术规范 第4部分:节能要求 北京市.pdf
GB-T 20000.11-2016 标准化工作指南 第11部分:国家标准的英文译本通用表述.pdf
GB-T 25068.3-2022 信息技术 安全技术 网络安全 第3部分:面向网络接入场景的威胁、设计技术和控制.pdf
T-IMAS 052.4—2022 电动中重卡共享换电站及车辆换电系统技术规范 第四部分:换电车辆换电控制器技术要求.pdf
DB31-T 1408-2023 医学检验实验室管理规范 上海市.pdf
青藤 - 国央企数字化转型安全建设指南0423.pdf
YD-T 3979-2021 数据中心浸没式液冷服务器系统技术要求和测试方法.pdf
GB-T 30984.3-2016 太阳能用玻璃 第3部分:玻璃反射镜.pdf
GB-T 25147-2010 工业设备化学清洗中金属腐蚀率及腐蚀总量的测试方法 重量法.pdf
GB-T 13389-2014 掺硼掺磷掺砷硅单晶电阻率与掺杂剂浓度换算规程.pdf
GB-T 42860-2023 运载火箭运输通用要求.pdf
DB11-T 968-2021 预制混凝土构件质量检验标准 北京市.pdf
GB-T 18494.1-2014 变流变压器 第1部分:工业用变流变压器.pdf
DB15-T 1878—2020 沙化草地治理技术规范 内蒙古自治区.pdf
GB-T 12183-2018 空中交通管制机载应答机通用规范.pdf
1
/
25
评价文档
赞助2.5元 点击下载(1.0 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。