专利一种基于集合的敏感信息防护方法和装置 -在线下载 -AI解读-standardlibrary.site

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211253758.7 (22)申请日 2022.10.13 (71)申请人中电云数智科技有限公司地址 430058 湖北省武汉市蔡甸区经济技术开发区人工智能科技园N栋研发楼3 层N3013号 (72)发明人陈建超　 (74)专利代理机构北京尚钺知识产权代理事务所(普通合伙) 11723 专利代理师王海荣 (51)Int.Cl. G06F 21/62(2013.01) G06K 9/62(2022.01) (54)发明名称一种基于集合的敏感信息防护方法和装置 (57)摘要本发明涉及敏感信息防护技术领域，提供一种基于集合的敏感信息防护方法和装置，本发明的方法，包括：获取原始数据，根据业务场景需求，根据获取的原始数据中标识符数据生成替换数据集合；使用替换数据集合中的数据对原始数据中的标识符数据进行相似替换处理；将通过相似替换后的数据通过常规脱敏处理后公开。根据本发明示例性实施例的基于集合的敏感信息防护方法和装置，可以有效防止因为同质攻击、背景知识攻击等攻击造成的数据泄漏风险，可以根据业务场景要求，生成替换数据集合，保证数据的有效性，且操作简单，占用资源少。权利要求书1页说明书4页附图2页 CN 115470521 A 2022.12.13 CN 115470521 A 1.一种基于集合的敏感信息防护方法，其特征在于，所述方法，包括：步骤S1：获取原始数据，根据业务场景需求，根据获取的原始数据中标识符数据生成替换数据集合；步骤S2：使用替换数据集合中的数据对原始数据中的标识符数据进行相似替换处理；步骤S3：将通过相似替换后的数据通过常规脱敏处理后公开。 2.根据权利要求1所述的基于集合的敏感信息防护方法，其特征在于，步骤S1包括：当业务场景对公开的数据没有特征要求时，从原始数据中提取标识符数据生成替换数据集合。 3.根据权利要求1所述的基于集合的敏感信息防护方法，其特征在于，步骤S1包括：当业务场景要求公开的数据包含特征信息时，在根据获取的原始数据中标识符数据生成替换数据集合时，根据所述特征信息对原始数据中的标识符数据进行分类，生成替换数据集合。 4.根据权利要求1所述的基于集合的敏感信息防护方法，其特征在于，步骤S2，包括：步骤S21：从原始数据中提取标识符数据；步骤S22：从替换数据集合中随机提取另一个与步骤S21中标识符数据不同的数据；步骤S23：采用步骤S22中提取的另一个标识符数据对步骤S21的标识符数据进行相似替换。 5.根据权利要求4所述的基于集合的敏感信息防护方法，其特征在于，步骤S23，包括：采用步骤S2 2中提取的另一个标识符数据对步骤S21的标识符数据进行完整替换。 6.根据权利要求1所述的基于集合的敏感信息防护方法，其特征在于，步骤S3中，常规脱敏处理包括遮盖脱敏处理。 7.一种基于集合的敏感信息防护装置，其特征在于，所述装置，包括：集合生成模块，用于获取原始数据，根据业务场景需求，根据获取的原始数据中标识符数据生成替换数据集合；当业务场景对公开的数据没有特征要求时，从原始数据中提取标识符数据生成替换数据集合；当业务场景要求公开的数据包含特征信息时，在根据获取的原始数据中标识符数据生成替换数据集合时，根据所述特征信息对原始数据中的标识符数据进行分类，生成替换数据集合；相似替换模块，用于使用替换数据集合中的数据对原始数据中的标识符数据进行相似替换处理；脱敏公开模块，用于将通过相似替换后的数据通过常规脱敏处理后公开。 8.根据权利要求7所述的基于集合的敏感信息防护装置，其特征在于，相似替换模块具体用于：从原始数据中提取标识符数据；从替换数据集合中随机提取另一个不同的标识符数据；采用所述不同的标识符数据对所述标识符数据进行相似替换。 9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被执行时，执行如权利要求1 ‑6任一所述的方法。 10.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1‑6中任一项所述方法的步骤。权　利　要　求　书 1/1 页 2 CN 115470521 A 2一种基于集合的敏感信息防护方法和装置技术领域 [0001]本发明涉及敏感信息防护技术领域，尤其涉及一种基于集合的敏感信息防护方法和装置。背景技术 [0002]目前针对数据泄漏应用的技术是匿名化策略，采用匿名化策略对孤立的信息进行处理具有一定的安全性，但是攻击者通过链式攻击、同质攻击、相似性攻击以及背景知识攻击等方式容易推理出与指定个体相应的敏感属性值。 [0003]为了防止相应的敏感属性值泄露，现阶段常用的解决方案是k ‑匿名数据隐私算法。 k‑匿名数据隐私算法通常可以在一定程度上防止敏感属性值的泄露，因为每个个体身份被准确标识的概率最大为1/k。但是k ‑匿名数据隐私算法只对准标识符进行修改，并未修改标识符，并且1/k的概率被碰撞，在同质攻击以及背景知识攻击中仍然容易造成敏感属性值信息的泄漏。 [0004]因此，如何提供一种敏感属性信息防护方法，成为亟待解决的技术问题。发明内容 [0005]有鉴于此，为了克服现有技术的不足，本发明基于替换数据集合生成、相似替换处理，提高对敏感信息的防护。 [0006]一方面，本发明提供一种基于集合的敏感信息防护方法，包括： [0007]步骤S1：获取原始数据，根据业务场景需求，根据获取的原始数据中标识符数据生成替换数据集合； [0008]步骤S2：使用替换数据集合中的数据对原始数据中的标识符数据进行相似替换处理； [0009]步骤S3：将通过相似替换后的数据通过常规脱敏处理后公开。 [0010]进一步地，本发明基于集合的敏感信息防护方法中的步骤S1包括：当业务场景对公开的数据没有特征要求时，从原始数据中提取标识符数据生成替换数据集合。 [0011]进一步地，本发明基于集合的敏感信息防护方法中的步骤S1包括：当业务场景要求公开的数据包含特征信息时，在根据获取的原始数据中标识符数据生成替换数据集合时，根据所述特征信息对原始数据中的标识符数据进行分类，生成替换数据集合。 [0012]进一步地，本发明基于集合的敏感信息防护方法中的步骤S2，包括： [0013]步骤S21：从原始数据中提取标识符数据； [0014]步骤S22：从替换数据集合中随机提取另一个与步骤S21中标识符数据不同的数据； [0015]步骤S23：采用步骤S22中提取的另一个标识符数据对步骤S21的标识符数据进行相似替换。 [0016]进一步地，本发明基于集合的敏感信息防护方法中的步骤S23，包括：采用步骤S22说　明　书 1/4 页 3 CN 115470521 A 3

专利 一种基于集合的敏感信息防护方法和装置

专利一种基于集合的敏感信息防护方法和装置