(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211253758.7 (22)申请日 2022.10.13 (71)申请人 中电云数智科技有限公司 地址 430058 湖北省武汉市蔡甸区经济技 术开发区人工智能科技园N栋研发楼3 层N3013号 (72)发明人 陈建超  (74)专利代理 机构 北京尚钺知识产权代理事务 所(普通合伙) 11723 专利代理师 王海荣 (51)Int.Cl. G06F 21/62(2013.01) G06K 9/62(2022.01) (54)发明名称 一种基于集合的敏感信息防护方法和装置 (57)摘要 本发明涉及敏感信息防护技术领域, 提供一 种基于集合的敏感信息防护方法和装置, 本发明 的方法, 包括: 获取原始数据, 根据业务场景需 求, 根据获取的原始数据中标识符数据生成替换 数据集合; 使用替换数据集合中的数据对原始数 据中的标识符数据进行相似替换处理; 将通过相 似替换后的数据通过常规脱 敏处理后公开。 根据 本发明示例性实施例的基于集合的敏感信息防 护方法和装置, 可 以有效防止因为同质攻击、 背 景知识攻击等攻击造成的数据泄漏风险, 可以根 据业务场景要求, 生成替换数据集合, 保证数据 的有效性, 且操作简单, 占用资源少。 权利要求书1页 说明书4页 附图2页 CN 115470521 A 2022.12.13 CN 115470521 A 1.一种基于集 合的敏感信息防护方法, 其特 征在于, 所述方法, 包括: 步骤S1: 获取原始数据, 根据业务场景需求, 根据获取的原始数据中标识符数据生成替 换数据集合; 步骤S2: 使用替换 数据集合中的数据对原 始数据中的标识符数据进行相似替换处 理; 步骤S3: 将通过相似替换后的数据通过常规脱敏处 理后公开。 2.根据权利要求1所述的基于集合的敏感信息防护方法, 其特征在于, 步骤S1包括: 当 业务场景对公开的数据没有特征要求时, 从原始数据中提取标识符数据生成替换数据集 合。 3.根据权利要求1所述的基于集合的敏感信息防护方法, 其特征在于, 步骤S1包括: 当 业务场景要求公开的数据包含特征信息时, 在根据获取的原始数据中标识符数据生成替换 数据集合时, 根据所述特 征信息对原 始数据中的标识符数据进行分类, 生成替换 数据集合。 4.根据权利要求1所述的基于集 合的敏感信息防护方法, 其特 征在于, 步骤S2, 包括: 步骤S21: 从原 始数据中提取 标识符数据; 步骤S22: 从替换 数据集合中随机提取另一个与步骤S21中标识符数据不同的数据; 步骤S23: 采用步骤S22中提取的另一个标识符数据对步骤S21的标识符数据进行相似 替换。 5.根据权利要求4所述的基于集合的敏感信息防护方法, 其特征在于, 步骤S23, 包括: 采用步骤S2 2中提取的另一个标识符数据对步骤S21的标识符数据进行完整替换。 6.根据权利要求1所述的基于集合的敏感信息防护方法, 其特征在于, 步骤S3中, 常规 脱敏处理包括遮盖脱敏处 理。 7.一种基于集 合的敏感信息防护装置, 其特 征在于, 所述装置, 包括: 集合生成模块, 用于获取原始数据, 根据业务场景需求, 根据获取的原始数据中标识符 数据生成替换数据集合; 当业务场景对公开的数据没有特征要求时, 从原始数据中提取标 识符数据生成替换数据集合; 当业务场景要求公开的数据包含特征信息时, 在根据获取 的 原始数据中标识符数据生成替换数据集合时, 根据所述特征信息对原始数据中的标识符数 据进行分类, 生成替换 数据集合; 相似替换模块, 用于使用替换数据集合中的数据对原始数据中的标识符数据进行相似 替换处理; 脱敏公开模块, 用于将通过相似替换后的数据通过常规脱敏处 理后公开。 8.根据权利要求7所述的基于集合的敏感信 息防护装置, 其特征在于, 相似替换模块具 体用于: 从原始数据中提取标识符数据; 从替换数据集合中随机提取另一个不同的标识符 数据; 采用所述 不同的标识符数据对所述标识符数据进行相似替换。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被执 行时, 执行如权利要求1 ‑6任一所述的方法。 10.一种计算机设备, 其特征在于, 所述计算机设备包括存储器、 处理器及存储在所述 存储器上并可在所述处理器上运行的计算机程序, 所述处理器执行所述程序时实现权利要 求1‑6中任一项所述方法的步骤。权 利 要 求 书 1/1 页 2 CN 115470521 A 2一种基于集合的敏感信息防护方 法和装置 技术领域 [0001]本发明涉及敏感信息防护技术领域, 尤其涉及一种基于集合的敏感信息防护方法 和装置。 背景技术 [0002]目前针对数据泄漏应用的技术是匿名化策略, 采用匿名化策略对孤立的信息进行 处理具有一定的安全性, 但是攻击者通过链式攻击、 同质攻击、 相似性攻击以及背 景知识攻 击等方式容 易推理出与指定个 体相应的敏感属性 值。 [0003]为了防止相应的敏感属性值泄露, 现阶段常用的解决方案是k ‑匿名数据隐私算 法。 k‑匿名数据隐私算法通常可以在一定程度上防止敏感属性值的泄露, 因为每个个体身 份被准确标识的概率最大为1/k。 但是k ‑匿名数据隐私算法只对准标识符进 行修改, 并未修 改标识符, 并且1/k的概率被碰撞, 在同质攻击以及背 景知识攻击中仍然容易造成敏感属性 值信息的泄漏。 [0004]因此, 如何提供一种敏感属性信息防护方法, 成为亟 待解决的技 术问题。 发明内容 [0005]有鉴于此, 为了克服现有技术的不足, 本发明基于替换数据集合生成、 相似替换处 理, 提高对敏感信息的防护。 [0006]一方面, 本发明提供一种基于集 合的敏感信息防护方法, 包括: [0007]步骤S1: 获取原始数据, 根据业务场景需求, 根据获取的原始 数据中标识符数据生 成替换数据集合; [0008]步骤S2: 使用替换数据集合中的数据对原始 数据中的标识符数据进行相似替换处 理; [0009]步骤S3: 将通过相似替换后的数据通过常规脱敏处 理后公开。 [0010]进一步地, 本发明基于集合的敏感信息防护方法中的步骤S1包括: 当业务场景对 公开的数据没有特 征要求时, 从原 始数据中提取 标识符数据生成替换 数据集合。 [0011]进一步地, 本发明基于集合的敏感信息防护方法中的步骤S1包括: 当业务场景要 求公开的数据包含特征信息时, 在根据获取的原始数据中标识符数据生成替换数据集合 时, 根据所述特 征信息对原 始数据中的标识符数据进行分类, 生成替换 数据集合。 [0012]进一步地, 本发明基于集 合的敏感信息防护方法中的步骤S2, 包括: [0013]步骤S21: 从原 始数据中提取 标识符数据; [0014]步骤S22: 从替换数据集合中随机提取另一个与步骤S21中标识符数据不同的数 据; [0015]步骤S23: 采用步骤S22中提取的另一个标识符数据对步骤S21的标识符数据进行 相似替换。 [0016]进一步地, 本 发明基于集合的敏感信息防护方法 中的步骤S23, 包括: 采用步骤S22说 明 书 1/4 页 3 CN 115470521 A 3

.PDF文档 专利 一种基于集合的敏感信息防护方法和装置

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于集合的敏感信息防护方法和装置 第 1 页 专利 一种基于集合的敏感信息防护方法和装置 第 2 页 专利 一种基于集合的敏感信息防护方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:11:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。