专利 基于大数据和人工智能的数据映射及其纠错方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210125026.3 (22)申请日 2022.02.10 (71)申请人广州慧扬健康科技有限公司地址 510000 广东省广州市黄埔区茅岗村坑田大街32号广州鱼珠智谷E-PARK创意园区C03号 (72)发明人刘洋　黎曦　李延民　 (74)专利代理机构广州立凡知识产权代理有限公司 44563 专利代理师傅俊朝 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/232(2020.01) G06K 9/62(2022.01) (54)发明名称基于大数据和人工智能的数据映射及其纠错方法 (57)摘要本发明涉及基于大数据和人工智能的数据映射及其纠错方法，其技术方案要点是：所述方法包括：对数据源和目的端的表名、字段名进行语义识别，得到数据源语义和目的端语义；对每个数据源的每个字段的语义和目的端的所有字段的语义进行相似度比对，得到对应数据源的每个字段的语义相似度列表；根据所述语义相似度列表从映射规则集中确定该数据源与目的端的映射关系；将所有映射关系存储至映射关系库中；判断映射关系库中的所有映射关系是否合理，若不合理，则发出告警并等待人工干预；将人工干预后确认的映射关系纳入映射规则集中；本申请具有提升数据映射的效率以及准确性的优点。权利要求书2页说明书8页附图3页 CN 114462421 A 2022.05.10 CN 114462421 A 1.基于大数据和人工智能的数据映射方法，其特征在于，包括：对数据源和目的端的表名、字段名进行语义识别，得到数据源语义和目的端语义；对每个数据源的每个字段的语义和目的端的所有字段的语义进行相似度比对，得到对应数据源的每个字段的语义相似度列表；根据所述语义相似度列表从映射规则集中确定该数据源与目的端的映射关系；将所有映射关系存储至映射关系库中。 2.根据权利要求1所述的数据映射方法，其特征在于，所述根据所述语义相似度列表从映射规则集中确定该数据源与目的端的映射关系，包括：将每个字段的语义相似度列表中各个字段的相似度得分从高到低进行排序；根据语义相似度列表中从高到底的排序判断数据源的字段与目的端的字段的数据类型是否匹配；若匹配，则将相似度最高的目的端字段作为数据源对应字段的目的端；根据该目的端和数据源对应的字段建立映射关系。 3.根据权利要求2所述的数据映射方法，其特征在于，所述根据该目的端和数据源对应的字段建立映射关系，包括：判断该目的端的字段与数据源对应的字段的相似度是否达到预设相似度阈值；若未达到阈值，则判断映射规则集中是否存在相同的目的端的字段与数据源对应的字段的映射关系，若存在，则采用映射规则集中的映射方式建立映射关系；若达到阈值，则判断映射规则集中是否存在相等的映射关系表；若存在，则获取该数据集的预设优先方式，根据预设优先方式建立映射关系；若不存在，则使用该目的端的字段与数据源对应的字段建立映射关系。 4.根据权利要求3所述的数据映射方法，其特征在于，所述根据预设优先方式建立映射关系，包括：识别预设优先方式内容，若该数据集采用映射规则集优先方式，则根据映射规则集中相等的映射关系表建立映射关系；若该数据集采用相似度优先方式，则使用该目的端的字段与数据源对应的字段建立映射关系。 5.根据权利要求1所述的数据映射方法，其特征在于，在所述将所有映射关系存储至映射关系库中之后，还包括：对映射关系库中的映射关系进行分析，根据各个映射关系的出现次数进行排序；将出现次数超过预设出现次数的映射关系，则将该映射关系纳入映射规则集中。 6.基于权利要求1 ‑5任一项所述的数据映射方法的纠错方法，其特征在于，包括：判断映射关系库中的所有映射关系是否合理，若不合理，则发出告警并等待干预；将干预后确认的映射关系纳入映射规则集中。 7.根据权利要求6所述的方法，其特征在于，所述判断映射关系库中的所有映射关系是否合理，若不合理，则发出告警并等待干预，包括：判断映射关系库内的每个映射关系的数据源的字段与目的端的字段的数据类型是否相同；若不相同，则发出告警并等待人工干预。 8.根据权利要求7所述的方法，其特征在于，在判断映射关系库内的每个映射关系的数据源的字段与目的端的字段数据类型是否相同之后，还包括：对该映射关系的数据源的字段与目的端的字段的相似度进行分析，得到该映射关系的权　利　要　求　书 1/2 页 2 CN 114462421 A 2相似度；判断该映射关系的相似度是否达到预设阈值，若该映射关系的相似度低于预设阈值，则发出告警并等待人工干预。 9.根据权利要求8所述的方法，其特征在于，在判断该映射关系的相似度是否达到预设阈值之后，还包括：通过自然语言对该映射关系中的数据源的字段名及其内容进行匹配度判断；若不匹配，则发出告警并等待人工干预。 10.根据权利要求6所述的方法，其特征在于，所述将干预后确认的映射关系纳入映射规则集中，包括：接收人工干预数据；根据人工干预数据进行判断，若人工干预数据对该映射关系进行确认，则将该映射关系纳入映射规则集中；若人工干预数据对该映射关系进行修改，则将修正后的映射关系纳入映射关系库中，并执行所述判断映射关系库中的所有映射关系是否合理的步骤。权　利　要　求　书 2/2 页 3 CN 114462421 A 3

专利 基于大数据和人工智能的数据映射及其纠错方法

专利基于大数据和人工智能的数据映射及其纠错方法