(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211049233.1
(22)申请日 2022.08.30
(71)申请人 重庆紫光华山智安科技有限公司
地址 400700 重庆市北碚区云汉大道1 17号
附386号
(72)发明人 成浩
(74)专利代理 机构 上海光华专利事务所(普通
合伙) 31219
专利代理师 张双凤
(51)Int.Cl.
G06F 16/215(2019.01)
G06F 16/535(2019.01)
G06V 10/74(2022.01)
G06V 40/16(2022.01)
(54)发明名称
一种数据去重方法、 装置、 设备及 介质
(57)摘要
本申请提供一种数据去重方法、 装置、 设备
及介质, 其中, 该方法包括: 获取人脸数据库, 人
脸数据库包括多个人脸数据, 且多个人脸数据中
存在属于同一目标客体的人脸数据; 将多个人脸
数据进行分片处理, 得到分片序列集合; 对分片
序列集合中的每个分片序列的内部进行去重处
理, 得到去重分片集合; 对去重分片集合中的第
一去重分片和第二去重分片执行两两去重处理,
得到第一去重序列; 对去重分片集合中的第三去
重分片和第四去重分片执行两两去重处理, 得到
第二去重序列; 对第一去重序列和第二去重序列
执行两两去重处理, 得到去重结果序列。 通过该
方法, 可以提高数据去重的效率。
权利要求书3页 说明书12页 附图3页
CN 115357571 A
2022.11.18
CN 115357571 A
1.一种数据去重方法, 其特 征在于, 包括:
获取人脸数据库, 所述人脸数据库包括多个人脸数据, 且所述多个人脸数据中存在属
于同一目标客体的人脸数据;
将所述多个人脸数据进行分片处 理, 得到分片序列集 合;
对所述分片序列集 合中的每 个分片序列的内部进行去重处 理, 得到去重分片集 合;
对所述去重分片集合中的第 一去重分片和第 二去重分片执行两两去重处理, 得到第 一
去重序列; 对所述去重分片集合中的第三去重分片和第四去重分片执行所述两两去重处
理, 得到第二去重序列;
对所述第一去重序列和所述第二去重序列执行所述两两去重处理, 得到去重结果序
列。
2.根据权利要求1所述的方法, 其特征在于, 所述将所述多个人脸数据进行分片处理,
得到分片序列集 合, 包括:
获取分片数量;
根据所述分片数量对所述多个人脸数据进行分片处 理, 得到所述分片序列集 合。
3.根据权利要求1所述的方法, 其特征在于, 所述分片序列集合包括第一分片序列, 所
述第一分片序列为所述第一分片序列集 合中的任意 一个分片序列;
所述对所述分片序列集合中的每个分片序列的内部进行去重处理, 得到去重分片集
合, 包括:
对第一元素与第 二元素进行相似度对比, 所述第 一元素与第 二元素为所述第 一分片序
列中的任意两个元 素, 且所述第一元 素的编号小于所述第二元 素的编号;
若所述第一元素与第二元素的相似度大于预设阈值, 则将第二元素删除, 得到所述去
重分片集 合。
4.根据权利要求1所述的方法, 其特征在于, 所述第 一去重分片与所述第 二去重分片为
所述去重分片集 合中的两个不同的去重分片;
所述对所述去重分片集合中的第 一去重分片和第 二去重分片执行两两去重处理, 得到
第一去重序列, 包括:
将所述第一去重分片拆分为多个部分, 得到针对所述第 一去重分片的至少一个去重分
片部分;
将所述针对所述第一去重分片的至少一个去重分片部分中的每个去重分片部分的各
个元素分别与所述第二去重分片中的各个元 素进行相似度对比;
若第三元素与第四元素的相似度大于预设阈值, 则将所述第三元素删除, 得到所述第
一去重序列; 所述第三元素为所述第一去重分片 中的任意一个元素, 所述第四元素为所述
第二去重分片中的任意 一个元素。
5.根据权利要求1所述的方法, 其特征在于, 所述第 三去重分片与所述第四去重分片为
所述去重分片集合中的两个不同的去重 分片, 且与所述第一去重分片和所述第二去重 分片
均不相同;
所述对所述去重分片集合中的第 三去重分片和第四去重分片执行所述两两去重处理,
得到第二去重序列, 包括:
将所述第三去重分片拆分为多个部分, 得到针对所述第 三去重分片的至少一个去重分权 利 要 求 书 1/3 页
2
CN 115357571 A
2片部分;
将所述针对所述第三去重分片的至少一个去重分片部分中的每个去重分片部分的各
个元素分别与所述第 第四去重分片中的各个元 素进行相似度对比;
若第五元素与第六元素的相似度大于预设阈值, 则将所述第五元素删除, 得到所述第
二去重序列; 所述第 五元素为所述第三去重分片 中的任意一个元素, 所述第六元素为所述
第四去重分片中的任意 一个元素。
6.根据权利要求1所述的方法, 其特征在于, 所述对所述第 一去重序列和所述第 二去重
序列执行所述两两去重处 理, 得到去重结果序列, 包括:
将所述第一去重序列拆分为多个部分, 得到针对所述第 一去重序列的至少一个去重序
列部分;
将所述至少一个去重序列部分中的每个去重序列部分中的各个元素分别与所述第二
去重序列中的各个元 素进行相似度对比;
若第七元素与第八元素的相似度大于预设阈值, 则将所述第七元素删除, 得到所述去
重结果序列; 所述第七元素为所述第一去重序列中的任意一个元素, 所述第八元素为所述
第二去重序列中的任意 一个元素。
7.根据权利要求1所述的方法, 其特征在于, 所述去重分片集合中包括所述第 一去重分
片、 所述第二去重分片和所述第三去重分片;
所述对所述分片序列集合中的每个分片序列的内部进行去重处理, 得到去重分片集合
之后, 所述方法还 包括:
对所述第一去重分片和所述第二去重分片执行所述两两去重处理, 得到第一去重序
列;
对所述第一去重序列和所述第 三去重分片执行所述两两去重处理, 得到所述去重结果
序列。
8.一种数据去重装置, 其特 征在于, 包括:
获取单元, 用于获取人脸数据库, 所述人脸数据库包括多个人脸数据, 且所述多个人脸
数据中存在属于同一目标客体的人脸数据;
处理单元, 用于将所述多个人脸数据进行分片处 理, 得到分片序列集 合;
所述处理单元, 还用于对所述分片序列集合中的每个分片序列的内部进行去重处理,
得到去重分片集 合;
所述处理单元, 还用于对所述去重分片集合中的第 一去重分片和第 二去重分片执行两
两去重处理, 得到第一去重序列; 对所述去重分片集合中的第三去重分片和第四去重分片
执行所述两两去重处 理, 得到第二去重序列;
所述处理单元, 还用于对所述第 一去重序列和所述第 二去重序列执行所述两两去重处
理, 得到去重结果序列。
9.一种数据去重设备, 其特征在于, 包括处理器、 存储器和通信 接口, 所述处理器、 所述
存储器和所述通信接口相互连接, 其中, 所述存储器用于存储计算机程序, 所述计算机程序
包括程序指令, 所述处理器被配置用于调用所述程序指令, 执行如权利要求1至7中任一项
所述的数据去重方法。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程权 利 要 求 书 2/3 页
3
CN 115357571 A
3
专利 一种数据去重方法、装置、设备及介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:26上传分享