(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210946778.6
(22)申请日 2022.08.09
(71)申请人 阿里巴巴 (中国) 有限公司
地址 311121 浙江省杭州市余杭区五常街
道文一西路969号3幢5层5 54室
(72)发明人 刘俊龙 申晨 沈旭 黄建强
(74)专利代理 机构 北京智信禾专利代理有限公
司 11637
专利代理师 赵杰
(51)Int.Cl.
G06V 10/762(2022.01)
G06V 10/75(2022.01)
G06V 10/74(2022.01)
(54)发明名称
数据聚类方法以及装置
(57)摘要
本说明书实施例提供数据聚类方法以及装
置, 其中所述数据聚类方法包括: 获取待聚类数
据集, 并根据所述待聚类数据集中任意两个待聚
类数据间的匹配概率, 对所述任意两个待聚类数
据进行聚类处理, 生成中间聚类结果, 根据所述
中间聚类结果中任意两个待聚类数据间的匹配
概率, 确定所述中间聚类结果中、 每个待聚类数
据对应的期望值, 其中, 所述期望值包括聚类准
确度期望值和/或聚类分裂度期望值, 根据所述
期望值, 对所述中间聚类结果进行调整, 生成对
应的目标聚类结果。
权利要求书3页 说明书18页 附图7页
CN 115019078 A
2022.09.06
CN 115019078 A
1.一种数据聚类方法, 包括:
获取与目标项目相关的视频流, 对所述视频流进行解析获得待聚类数据集, 并根据所
述待聚类数据集中任意两个待聚类数据间的匹配概率, 对所述任意两个待聚类数据进 行聚
类处理, 生成中间聚类结果;
根据所述中间聚类结果中任意两个待聚类数据间的匹配概率, 确定所述中间聚类结果
中、 每个待聚类数据对应的期望值, 其中, 所述期望值包括聚类准确度期望值和/或聚类分
裂度期望值;
根据所述期望值, 对所述中间聚类结果进行调整, 生成对应的目标聚类结果。
2.根据权利要求1所述的数据聚类方法, 所述根据所述待聚类数据集中任意两个待聚
类数据间的匹配概 率, 对所述任意两个待聚类数据进行聚类处 理, 包括:
对所述待聚类数据集中包含的至少两个待聚类数据进行特征提取处理, 生成对应的特
征提取结果;
基于所述特征提取结果确定所述至少两个待聚类数据中、 任意两个待聚类数据间的匹
配概率;
根据所述匹配概 率, 对所述至少两个待聚类数据进行聚类处 理。
3.根据权利要求2所述的数据聚类方法, 所述基于所述特征提取结果确定所述至少两
个待聚类数据中、 任意两个待聚类数据间的匹配概 率, 包括:
基于所述特征提取结果确定所述至少两个待聚类数据中、 任意两个待聚类数据间的目
标欧式距离;
根据预设的欧式距离与匹配概率间的映射关系, 确定与 所述目标欧式距离存在映射关
系的目标匹配概率, 并将所述 目标匹配概率确定为所述至少 两个待聚类数据中、 任意两个
待聚类数据间的匹配概 率。
4.根据权利要求1任意一项所述的数据聚类方法, 所述根据所述待聚类数据集中任意
两个待聚类数据间的匹配概率, 对所述任意两个待聚类数据进行聚类处理, 生成中间聚类
结果, 包括:
根据所述待聚类数据集中任意两个历史待聚类数据间的第 一匹配概率, 对所述任意两
个历史待聚类数据进行聚类处 理, 生成初始聚类结果;
确定待聚类数据集中、 目标待聚类数据与每 个历史待聚类数据间的第二匹配概 率;
根据所述第二匹配概 率, 对所述初始聚类结果进行 更新, 生成中间聚类结果。
5.根据权利要求4所述的数据聚类方法, 所述根据 所述第二匹配概率, 对所述初始聚类
结果进行 更新, 包括:
根据所述第二匹配概 率确定所述目标待聚类数据对应的第一类别;
根据所述第 一类别及所述初始聚类结果对应的第 二类别, 对所述初始聚类结果进行更
新。
6.根据权利要求5所述的数据聚类方法, 所述根据所述第一类别及所述初始聚类结果
对应的第二类别, 对所述初始聚类结果进行 更新, 包括:
在所述第一类别与第 一初始聚类结果对应的第 二类别一致的情况下, 将所述目标待聚
类数据添加至所述第一初始聚类结果, 其中, 所述第一初始聚类结果为所述初始聚类结果
之一;权 利 要 求 书 1/3 页
2
CN 115019078 A
2确定所述第 一初始聚类结果的第 一类代表对象, 并确定所述第 一类代表对象与第 一历
史待聚类数据间的第三匹配概率, 其中, 所述第一历史待聚类数据属于第二初始聚类结果,
所述第二初始聚类结果 为所述初始聚类结果之一;
根据所述第三匹配概 率对所述初始聚类结果进行 更新。
7.根据权利要求5或6所述的数据聚类方法, 所述根据所述第 一类别及所述初始聚类结
果对应的第二类别, 对所述初始聚类结果进行 更新, 包括:
在所述第一类别与 所述第二类别不一致的情况下, 对所述目标待聚类数据及第 一初始
聚类结果中的第二历史待聚类数据进 行聚类, 生成第三初始聚类结果, 其中, 目标待聚类数
据与所述第二历史待聚类数据间的第二匹配概 率大于预设概 率阈值;
确定所述第 三初始聚类结果的第 三类代表对象, 并确定所述第 三类代表对象与所述第
一初始聚类结果和/或第二初始聚类结果中每 个历史待聚类数据间的第四匹配概 率;
根据所述第四匹配概 率, 对所述初始聚类结果进行 更新。
8.根据权利要求1至6任意一项所述的数据聚类方法, 所述根据 所述中间聚类结果中任
意两个待聚类数据间的匹配概率, 确定所述中间聚类结果中、 每个待聚类数据对应的期望
值, 包括:
确定目标中间聚类结果中, 第i个待聚类数据与所述目标中间聚类结果中每个待聚类
数据间的匹配概 率, 其中, 所述目标中间聚类结果 为所述中间聚类结果中的任一个;
根据所述匹配概率, 确定所述第i个待聚类数据属于所述目标中间聚类结果的第一概
率, 以及所述第i个待聚类数据不属于所述目标中间聚类结果的第二 概率;
在将所述第 i个待聚类数据划分至所述目标中间聚类结果的情况下, 确定所述第 i个待
聚类数据属于所述 目标中间聚类结果所对应的第一准确度和第一分裂度, 并确定所述第i
个待聚类数据不属于所述目标中间聚类结果所对应的第二 准确度和第二分裂度;
基于所述第一概率、 所述第二概率、 所述第一准确度及所述第二准确度, 确定所述第i
个待聚类数据对应的第一聚类准确度期望值;
基于所述第一概率、 所述第二概率、 所述第一分裂度及所述第二分裂度, 确定所述第i
个待聚类数据对应的第一聚类分类度期望值。
9.根据权利要求8所述的数据聚类方法, 还 包括:
在未将所述第 i个待聚类数据划分至所述目标中间聚类结果的情况下, 确定所述第i个
待聚类数据属于所述目标中间聚类结果所对应的第三准确度和 第三分裂度, 并确定所述第
i个待聚类数据不属于所述目标中间聚类结果所对应的第四准确度和第四分裂度;
基于所述第一概率、 所述第二概率、 所述第三准确度及所述第 四准确度, 确定所述第i
个待聚类数据对应的第二聚类准确度期望值;
基于所述第一概率、 所述第二概率、 所述第三分裂度及所述第 四分裂度, 确定所述第i
个待聚类数据对应的第二聚类分类度期望值。
10.根据权利要求1至6任意一项所述的数据聚类方法, 所述待聚类数据集中包含待聚
类图像集。
11.一种图像聚类方法, 包括:
获取待聚类图像集, 并根据所述待聚类图像集中任意两个待聚类图像间的匹配概率,
对所述任意两个待聚类图像进行聚类处 理, 生成中间聚类结果;权 利 要 求 书 2/3 页
3
CN 115019078 A
3
专利 数据聚类方法以及装置
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:44上传分享