standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210125026.3 (22)申请日 2022.02.10 (71)申请人 广州慧扬健康科技有限公司 地址 510000 广东省广州市黄埔区茅岗村 坑田大街32号广州鱼珠智谷E-PARK创 意园区C03号 (72)发明人 刘洋 黎曦 李延民 (74)专利代理 机构 广州立凡知识产权代理有限 公司 44563 专利代理师 傅俊朝 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/232(2020.01) G06K 9/62(2022.01) (54)发明名称 基于大数据和人工智能的数据 映射及其纠 错方法 (57)摘要 本发明涉及基于大数据和人工智能的数据 映射及其纠错方法, 其技术方案要点是: 所述方 法包括: 对数据源和目的端的表名、 字段名进行 语义识别, 得到数据源语义和目的端语义; 对每 个数据源的每个字段的语义和目的端的所有字 段的语义进行相似度比对, 得到对应数据源的每 个字段的语义相似度列表; 根据所述语义相似度 列表从映射规则集中确定该数据源与 目的端的 映射关系; 将所有映射关系存储至映射关系库 中; 判断映射关系库中的所有映射关系是否合 理, 若不合理, 则发出告警并等待人工干预; 将人 工干预后确认的映射关系纳入映射规则集中; 本 申请具有提升数据映射的效率 以及准确性的优 点。 权利要求书2页 说明书8页 附图3页 CN 114462421 A 2022.05.10 CN 114462421 A 1.基于大 数据和人工智能的数据映射方法, 其特 征在于, 包括: 对数据源和目的端的表名、 字段名进行语义识别, 得到数据源语义和目的端语义; 对每个数据源的每个字段的语义和目的端的所有字段的语义进行相似度比对, 得到对 应数据源的每 个字段的语义相似度列表; 根据所述语义相似度列表从映射 规则集中确定该 数据源与目的端的映射关系; 将所有映射关系存 储至映射关系库中。 2.根据权利要求1所述的数据映射方法, 其特征在于, 所述根据 所述语义相似度列表从 映射规则集中确定该 数据源与目的端的映射关系, 包括: 将每个字段的语义相似度列表中各个字段的相似度得分从高到低进行排序; 根据语义相似度列表中从高到底的排序判断数据源的字段与目的端的字段的数据类 型是否匹配; 若匹配, 则将相似度最高的目的端字段作为数据源 对应字段的目的端; 根据该目的端和数据源 对应的字段建立映射关系。 3.根据权利要求2所述的数据映射方法, 其特征在于, 所述根据 该目的端和数据源对应 的字段建立映射关系, 包括: 判断该目的端的字段与数据源 对应的字段的相似度是否 达到预设相似度阈值; 若未达到阈值, 则判断映射规则集中是否存在相同的目的端的字段与 数据源对应的字 段的映射关系, 若存在, 则采用映射 规则集中的映射方式建立映射关系; 若达到阈值, 则判断映射规则集中是否存在相等的映射关系表; 若存在, 则获取该数据 集的预设优先方式, 根据预设优 先方式建立映射关系; 若不存在, 则使用该目的端的字段与 数据源对应的字段建立映射关系。 4.根据权利要求3所述的数据映射方法, 其特征在于, 所述根据 预设优先方式建立映射 关系, 包括: 识别预设优先方式内容, 若该数据集采用映射规则集优先方式, 则根据映射规则集中 相等的映射关系表建立映射关系; 若该数据集采用相似度优先方式, 则使用该目的端的字 段与数据源 对应的字段建立映射关系。 5.根据权利要求1所述的数据映射方法, 其特征在于, 在所述将所有映射关系 存储至映 射关系库中之后, 还 包括: 对映射关系库中的映射关系进行分析, 根据各个映射关系的出现次数进行排序; 将出现次数超过 预设出现次数的映射关系, 则将该映射关系纳入映射 规则集中。 6.基于权利要求1 ‑5任一项所述的数据映射方法的纠错方法, 其特 征在于, 包括: 判断映射关系库中的所有映射关系是否合理, 若不 合理, 则发出告警并等待干预; 将干预后确认的映射关系纳入映射 规则集中。 7.根据权利要求6所述的方法, 其特征在于, 所述判断映射关系库中的所有映射关系是 否合理, 若不 合理, 则发出告警并等待干预, 包括: 判断映射关系库内的每个映射关系的数据源的字段与目的端的字段的数据类型是否 相同; 若不相同, 则发出告警并等待人工 干预。 8.根据权利要求7所述的方法, 其特征在于, 在判断映射关系库内的每个映射关系的数 据源的字段与目的端的字段 数据类型 是否相同之后, 还 包括: 对该映射关系的数据源的字段与目的端的字段的相似度进行分析, 得到该映射关系的权 利 要 求 书 1/2 页 2 CN 114462421 A 2相似度; 判断该映射关系的相似度是否达到预设阈值, 若该映射关系的相似度低于预设阈值, 则发出告警并等待人工 干预。 9.根据权利要求8所述的方法, 其特征在于, 在判断该映射关系的相似度 是否达到预设 阈值之后, 还 包括: 通过自然语言对该映射关系中的数据源的字段名及其内容进行匹配度判断; 若不匹 配, 则发出告警并等待人工 干预。 10.根据权利要求6所述的方法, 其特征在于, 所述将干预后确认的映射关系纳入映射 规则集中, 包括: 接收人工 干预数据; 根据人工干预数据进行判断, 若人工干预数据对该映射关系进行确认, 则将该映射关 系纳入映射规则集中; 若人工干预数据对该映射关系进行修改, 则将修正后的映射关系纳 入映射关系库中, 并执 行所述判断映射关系库中的所有映射关系是否合理的步骤。权 利 要 求 书 2/2 页 3 CN 114462421 A 3
专利 基于大数据和人工智能的数据映射及其纠错方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:37
上传分享
举报
下载
原文档
(512.6 KB)
分享
友情链接
GB-T 38628-2020 信息安全技术 汽车电子系统网络安全指南.pdf
GB-T 42855-2023 氢燃料电池车辆加注协议技术要求.pdf
GB-T 8259-2008 卡箍式柔性管接头 技术条件.pdf
GA 1800.1-2021 电力系统治安反恐防范要求 第1部分:电网企业.pdf
GB-T 38556-2020 信息安全技术 动态口令密码应用技术规范.pdf
DB42-T 633.1-2023 双季稻栽培技术规程 第1部分:早晚稻机械化直播 湖北省.pdf
GB-T 14337-2022 化学纤维 短纤维拉伸性能试验方法.pdf
DB51-T 2738-2020 大熊猫圈养机构宣传教育标准 四川省.pdf
GB-T 23853-2022 卤水碳酸锂.pdf
TTAF 180.3—2023 小程序个人信息保护规范 第3部分:全流程开发管理.pdf
GB-T 15843.1-2017 信息技术 安全技术 实体鉴别 第1部分:总则.pdf
DB35-T 1764-2018 沿海地区金属屋面技术条件 福建省.pdf
GB-T 33482-2016 党政机关电子公文系统建设规范.pdf
中国移动 量子时代区块链技术白皮书 2020.pdf
T-CEC 633—2022 电力北斗输电线路舞动监测接收机技术规范.pdf
GB-T 41574-2022 信息技术安全技术公有云中个人信息保护实践指南 ISO-IEC 27018-2019.pdf
GB 17565-2022 防盗安全门通用技术条件.pdf
GB-T 35349-2017 汽车驻车制动性能检验方法.pdf
GB-T 33133.1-2016 信息安全技术 祖冲之序列密码算法 第1部分:算法描述.pdf
民航 MH-T 0046-2014 民航重要信息系统灾难备份与恢复实施规范.pdf
1
/
14
评价文档
赞助2.5元 点击下载(512.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。