(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210662605.1
(22)申请日 2022.06.13
(71)申请人 乐知未来科技 (深圳) 有限公司
地址 518129 广东省深圳市龙岗区坂田街
道社区黄军山综合楼801-826
(72)发明人 杨斌 王洁 刘怀亮 赵舰波
(74)专利代理 机构 西安嘉思特知识产权代理事
务所(普通 合伙) 6123 0
专利代理师 辛菲
(51)Int.Cl.
H04N 21/234(2011.01)
H04N 21/233(2011.01)
G06V 20/40(2022.01)
G06V 10/74(2022.01)
G10L 25/57(2013.01)G10L 25/27(2013.01)
G10L 25/03(2013.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于视觉特征与音频特征的重复短视
频清洗方法
(57)摘要
本发明涉及一种基于视觉特征与音频特征
的重复短视频清洗方法, 包括: 步骤1: 对待比较
的两个短视频分别进行关键帧提取, 得到对应的
视频关键帧集合, 并对视频关键帧集合进行图像
特征提取, 得到对应的图像特征; 步骤2: 根据图
像特征, 对两个视频关键帧集合的相似性进行检
测, 根据检测结果判断两个短视频是否属于相似
视频; 步骤3: 若属于相似视频, 则对两个短视频
分别进行音频提取, 得到对应的音频信号, 并对
音频信号进行相似性检测, 根据检测结果判断两
个短视频是否属于重复短视频, 并对重复短视频
进行清洗操作。 本发明的重复短视频清洗方法,
能够最快的求解最优的大规模视频去重方案, 提
升短视频视频清洗的完成效率。
权利要求书4页 说明书11页 附图1页
CN 115086713 A
2022.09.20
CN 115086713 A
1.一种基于 视觉特征与音频 特征的重复短视频清洗方法, 其特 征在于, 包括:
步骤1: 对待比较的两个短视频分别进行关键帧提取, 得到对应的视频关键帧集合, 并
对所述视频关键帧集 合进行图像特 征提取, 得到对应的图像特 征;
步骤2: 根据所述图像特征, 对两个所述视频关键帧集合的相似性进行检测, 根据检测
结果判断两个短视频 是否属于相似视频;
步骤3: 若属于相似视频, 则对两个短视频分别进行音频提取, 得到对应的音频信号, 并
对所述音频信号进行相似性检测, 根据检测结果判断两个短视频是否属于重复短视频, 并
对重复短视频进行清洗操作。
2.根据权利要求1所述的基于视觉特征与音频特征的重复短视频清洗方法, 其特征在
于, 所述步骤1包括:
步骤1.1: 对待比较的两个短视频分别进行关键帧提取, 得到对应的视频关键帧集 合;
步骤1.2: 对所述的视频关键帧集合中的关键帧进行超像素分割, 得到关键帧对应的超
像素分割图像;
步骤1.3: 对所述超像素分割图像进行图像特征提取, 得到所述视频关键帧集合中每个
关键帧的图像特 征。
3.根据权利要求2所述的基于视觉特征与音频特征的重复短视频清洗方法, 其特征在
于, 所述步骤1.2包括:
步骤1.2.1: 设置超像素 数目K, 初始化所述关键帧的种子点;
步骤1.2.2: 在初始化种子点的预设尺寸邻域内重新选择种子点, 遍历计算每个像素点
与种子点之间的颜色距离和空间距离, 计算方法如下:
其中, dC表示像素点间的颜 色距离, dS表示像素点间的空间距离, a,b...z分别表示图像
在颜色空间的分向量, (xi, yi)和(xj, yj)分别表示两个像素点在图像空间坐标系 下的坐标
值, NC表示最大颜色距离, NS表示相邻种子点的最 大距离, D表示最终的距离度量, α 表示颜色
权重, β 表示距离 权重;
步骤1.2.3: 计算像素点与种子点之间的相似程度df, 将最相似种子点的标签赋给该像
素点, 完成超像素分割, 得到超像素分割图像, 其中, 相似程度df计算公式如下:权 利 要 求 书 1/4 页
2
CN 115086713 A
2其中, S表示相邻种子点的距离 。
4.根据权利要求3所述的基于视觉特征与音频特征的重复短视频清洗方法, 其特征在
于, 所述步骤1.3包括:
步骤1.3.1: 对所述超像素分割图像的像素均值特征进行提取, 得到均 值特征序列M, 其
中, 均值特 征序列M中每 个超像素区域的均值特 征向量M(i)计算公式如下:
其中, i表示当前超像素区域, MAPix表示关键帧图像的像素均值, MPix表示超像素区域的
像素均值;
步骤1.3.2: 对所述均值特 征序列M进行DCT离 散余弦变换 得到系数矩阵Ceof;
步骤1.3.3: 根据所述系数矩阵Ceof, 得到DCT特征感知哈希序列H, 所述均值特征序列M
和所述DCT特征感知哈希序列H作为所述关键帧的图像特征, 其中, DCT特征感知哈希序列H
中每个超像素区域的DCT特 征感知哈希度量 值H(i)计算公式如下:
其中, gAvg表示系数矩阵Ceof的均值。
5.根据权利要求4所述的基于视觉特征与音频特征的重复短视频清洗方法, 其特征在
于, 所述步骤2包括:
步骤2.1: 按照下式计算两个所述视频关键帧集 合中对应的关键帧之间的汉明距离:
其中, H1(i)和H2(i)分别表示两个视频关键帧集合中对应关键帧的DCT特征感知哈希度
量值, M01表示DCT特征感知哈希序列H1为1、 DCT特征感知哈希序列H2为0的个数, M10表示DCT
特征感知哈希序列H2为1、 DCT特 征感知哈希序列H1为0的个数;
步骤2.2: 根据所述汉明距离, 计算得到 两个所述视频关键帧集 合的相似度Hkfs,
其中, θ1+θ2+...+θm=1, H1、 H2、 ...、 Hm分别表示计算得到的两个视频关键帧集合中对应
的关键帧之间的汉明距离, m表示视频关键帧集 合中关键帧的个数;
步骤2.3: 如果Hkfs小于预设的相似度 阈值, 则判断两个短视频属于相似视频, 否则, 两
个短视频不属于相似视频。
6.根据权利要求1所述的基于视觉特征与音频特征的重复短视频清洗方法, 其特征在
于, 所述步骤3包括:权 利 要 求 书 2/4 页
3
CN 115086713 A
3
专利 一种基于视觉特征与音频特征的重复短视频清洗方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:37上传分享