standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210125026.3 (22)申请日 2022.02.10 (71)申请人 广州慧扬健康科技有限公司 地址 510000 广东省广州市黄埔区茅岗村 坑田大街32号广州鱼珠智谷E-PARK创 意园区C03号 (72)发明人 刘洋 黎曦 李延民  (74)专利代理 机构 广州立凡知识产权代理有限 公司 44563 专利代理师 傅俊朝 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/232(2020.01) G06K 9/62(2022.01) (54)发明名称 基于大数据和人工智能的数据 映射及其纠 错方法 (57)摘要 本发明涉及基于大数据和人工智能的数据 映射及其纠错方法, 其技术方案要点是: 所述方 法包括: 对数据源和目的端的表名、 字段名进行 语义识别, 得到数据源语义和目的端语义; 对每 个数据源的每个字段的语义和目的端的所有字 段的语义进行相似度比对, 得到对应数据源的每 个字段的语义相似度列表; 根据所述语义相似度 列表从映射规则集中确定该数据源与 目的端的 映射关系; 将所有映射关系存储至映射关系库 中; 判断映射关系库中的所有映射关系是否合 理, 若不合理, 则发出告警并等待人工干预; 将人 工干预后确认的映射关系纳入映射规则集中; 本 申请具有提升数据映射的效率 以及准确性的优 点。 权利要求书2页 说明书8页 附图3页 CN 114462421 A 2022.05.10 CN 114462421 A 1.基于大 数据和人工智能的数据映射方法, 其特 征在于, 包括: 对数据源和目的端的表名、 字段名进行语义识别, 得到数据源语义和目的端语义; 对每个数据源的每个字段的语义和目的端的所有字段的语义进行相似度比对, 得到对 应数据源的每 个字段的语义相似度列表; 根据所述语义相似度列表从映射 规则集中确定该 数据源与目的端的映射关系; 将所有映射关系存 储至映射关系库中。 2.根据权利要求1所述的数据映射方法, 其特征在于, 所述根据 所述语义相似度列表从 映射规则集中确定该 数据源与目的端的映射关系, 包括: 将每个字段的语义相似度列表中各个字段的相似度得分从高到低进行排序; 根据语义相似度列表中从高到底的排序判断数据源的字段与目的端的字段的数据类 型是否匹配; 若匹配, 则将相似度最高的目的端字段作为数据源 对应字段的目的端; 根据该目的端和数据源 对应的字段建立映射关系。 3.根据权利要求2所述的数据映射方法, 其特征在于, 所述根据 该目的端和数据源对应 的字段建立映射关系, 包括: 判断该目的端的字段与数据源 对应的字段的相似度是否 达到预设相似度阈值; 若未达到阈值, 则判断映射规则集中是否存在相同的目的端的字段与 数据源对应的字 段的映射关系, 若存在, 则采用映射 规则集中的映射方式建立映射关系; 若达到阈值, 则判断映射规则集中是否存在相等的映射关系表; 若存在, 则获取该数据 集的预设优先方式, 根据预设优 先方式建立映射关系; 若不存在, 则使用该目的端的字段与 数据源对应的字段建立映射关系。 4.根据权利要求3所述的数据映射方法, 其特征在于, 所述根据 预设优先方式建立映射 关系, 包括: 识别预设优先方式内容, 若该数据集采用映射规则集优先方式, 则根据映射规则集中 相等的映射关系表建立映射关系; 若该数据集采用相似度优先方式, 则使用该目的端的字 段与数据源 对应的字段建立映射关系。 5.根据权利要求1所述的数据映射方法, 其特征在于, 在所述将所有映射关系 存储至映 射关系库中之后, 还 包括: 对映射关系库中的映射关系进行分析, 根据各个映射关系的出现次数进行排序; 将出现次数超过 预设出现次数的映射关系, 则将该映射关系纳入映射 规则集中。 6.基于权利要求1 ‑5任一项所述的数据映射方法的纠错方法, 其特 征在于, 包括: 判断映射关系库中的所有映射关系是否合理, 若不 合理, 则发出告警并等待干预; 将干预后确认的映射关系纳入映射 规则集中。 7.根据权利要求6所述的方法, 其特征在于, 所述判断映射关系库中的所有映射关系是 否合理, 若不 合理, 则发出告警并等待干预, 包括: 判断映射关系库内的每个映射关系的数据源的字段与目的端的字段的数据类型是否 相同; 若不相同, 则发出告警并等待人工 干预。 8.根据权利要求7所述的方法, 其特征在于, 在判断映射关系库内的每个映射关系的数 据源的字段与目的端的字段 数据类型 是否相同之后, 还 包括: 对该映射关系的数据源的字段与目的端的字段的相似度进行分析, 得到该映射关系的权 利 要 求 书 1/2 页 2 CN 114462421 A 2相似度; 判断该映射关系的相似度是否达到预设阈值, 若该映射关系的相似度低于预设阈值, 则发出告警并等待人工 干预。 9.根据权利要求8所述的方法, 其特征在于, 在判断该映射关系的相似度 是否达到预设 阈值之后, 还 包括: 通过自然语言对该映射关系中的数据源的字段名及其内容进行匹配度判断; 若不匹 配, 则发出告警并等待人工 干预。 10.根据权利要求6所述的方法, 其特征在于, 所述将干预后确认的映射关系纳入映射 规则集中, 包括: 接收人工 干预数据; 根据人工干预数据进行判断, 若人工干预数据对该映射关系进行确认, 则将该映射关 系纳入映射规则集中; 若人工干预数据对该映射关系进行修改, 则将修正后的映射关系纳 入映射关系库中, 并执 行所述判断映射关系库中的所有映射关系是否合理的步骤。权 利 要 求 书 2/2 页 3 CN 114462421 A 3

PDF文档 专利 基于大数据和人工智能的数据映射及其纠错方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于大数据和人工智能的数据映射及其纠错方法 第 1 页 专利 基于大数据和人工智能的数据映射及其纠错方法 第 2 页 专利 基于大数据和人工智能的数据映射及其纠错方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:37上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。