(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221095242 9.5
(22)申请日 2022.08.09
(71)申请人 广州像素 数据技术股份有限公司
地址 510230 广东省广州市海珠区海联路
25号二楼208房
(72)发明人 庞恺 范志鸿 刘艳 古竞
(74)专利代理 机构 广州科粤专利商标代理有限
公司 44001
专利代理师 杨可维 劳剑东
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/82(2022.01)
G06V 10/764(2022.01)
G06V 10/74(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06Q 50/20(2012.01)
(54)发明名称
一种用于实验操作规范评价的视频动态抽
帧方法
(57)摘要
本发明公开一种用于实验操作规范评价的
视频动态抽帧方法, 抽取不同实验视频的关键
帧, 并通过基于YCbCr高斯肤色算法提取只包含
手部的二值图; 构建一个单输入 单输出的神经网
络进行训练; 阶段一通过开源的图像 分类训练集
学习无特定环 境图像的色彩及边沿信息, 然后将
类别预测层替换为512维的全 连层作为特征输出
层并拼接手部特征还原模块和特征相似分类模
块, 通过还原实验图片 的手部区域, 来协助提升
算法对手部部分的关注并降低对其他光线或无
关物体变化的影响。 本发明的有益效果: 基于深
度神经网络判别视频画面相似度, 处理实验操作
规范评价视频时, 包含关键交互的操作视频不跳
帧, 对于无关操作的视频帧则直接略过, 智 能快
进压缩视频时长 。
权利要求书2页 说明书4页 附图2页
CN 115457425 A
2022.12.09
CN 115457425 A
1.一种用于实验操作规范评价的视频动态抽帧方法, 其特 征在于, 包括以下步骤:
S1, 抽取不同实验视频的关键帧整合为第一训练集, 通过K ‑Means算法将所述第一训练
集中的每张图片 聚类分成不同类别作为伪标签Tc, 通过YCbCr高斯肤色算法从所述第一训
练集的每张图片中提取只包 含手部的二 值图作为伪标签Tb;
S2, 构建一个单输入单输出的第一神经网络, 用于进行以下训练;
S3, 在第一阶段训练中, 将开源的第二训练集输入所述第 一神经网络, 并更新所述第一
神经网络的参数, 直到满足第一预设条件停止所述第一阶段训练;
S4, 以所述第一阶段训练的训练结果为基础, 将所述第一神经网络的类别预测层替换
为512维的全连层作为特征输出层, 并拼接两个分支, 其中一个分支为手部特征还原模块,
另一个分支为特征相似分类模块, 形成一个单输入多输出 的神经网络, 定义为第二神经网
络;
S5, 在第二阶段训练中, 把所述第一训练集的图片迁移至所述第二神经网络进行训练,
所述伪标签Tc和所述伪标签Tb作为监督信号, 计算所述 特征相似分类模块的损失, 定 义为分
类准确度损失损失函数, 以及计算所述手部特征还原模块预测的手部图片Pb和所述伪标签
Tb之间的欧式距离, 定义为手部区域损失函数, 对所述手部区域损失函数设定预设权重, 计
算所述分类准确度损失函数和所述手部区域损失函数的损失和, 更新所述第二神经网络的
参数, 直到满足第二预设条件停止所述第二阶段训练;
S6, 使用阶段去掉所述手部特征还原模块和所述特征相似分类模块, 将所述特征输出
层作为图像的唯一特征, 取视频 的第一帧作为 目标帧, 顺序遍历视频 的其他帧作为待检测
帧, 计算所述待检测帧和所述目标帧的特征之 间的余弦距离, 得到帧间相似度, 当所述帧间
相似度小于所述预设权重, 将所述待检测帧抽出保存, 并将所述待检测帧替换为新的所述
目标帧参与下一次余弦距离的计算。
2.如权利要求1所述的用于实验操作规范评价的视频动态抽帧方法, 其特征在于, 所述
YCbCr高斯 肤色算法的坐标点分别设置为Cr=[138,243], Cb=[7 7,127]。
3.如权利要求1所述的用于实验操作规范评价的视频动态抽帧方法, 其特征在于, 还包
括步骤S301, 将所述第二训练集输入所述第一神经网络后, 根据预测 类别与真实类别计算
每张图片的交叉熵损失函数值:
其中, L为交叉熵损失函数值, N为所述第二训练集每批次训练的 图片数量, Gi为第i张图
片的真实类别, Pi第i张图片的预测类别;
步骤S302, 对所述交叉熵损失函数值进行反向求导, 然后更新所述第一神经网络的参
数。
4.如权利要求3所述的用于实验操作规范评价的视频动态抽帧方法, 其特征在于, 所述
第一预设条件包括, 重复S301的步骤达到预设次数, 或者当所述交叉熵损失函数值小于第
一阈值时, 停止所述第一阶段训练。
5.如权利要求1所述的用于实验操作规范评价的视频动态抽帧方法, 其特征在于, 所述
手部特征还原模块由多个双线性插值进行 上采样构成。
6.如权利要求1所述的用于实验操作规范评价的视频动态抽帧方法, 其特征在于, 所述权 利 要 求 书 1/2 页
2
CN 115457425 A
2分类准确度损失函数为:
其中, Larcface为分类准确度损失函数值, N为所述第一训练集每批 次训练的图片数量, i
为每批次训练的第i张图片, K为所述第一训练集的类别总数, k为所述第一训练集的第k个
类别, Tik为真实标注的第i 张图片的第k个标注结果, Pik为网络预测的第i张图片的第k个类
别结果。
7.如权利要求6所述的用于实验操作规范评价的视频动态抽帧方法, 其特征在于, 所述
手部区域损失函数为:
其中, Lb为手部区域损失函数值, N为所述第一训练集每批次训练的图片数量,i为每批
次训练的第i张图片, m为图片总像素, j为图片对应的第j个像素,
为神经网络预测的图片
第j个像素预测结果,
为伪标签第j个 像素预测结果。
8.如权利要求7所述的用于实验操作规范评价的视频动态抽帧方法, 其特征在于, 所述
损失和Ltotal为:
Ltotal=Larcface+0.5·Lb
其中, 所述预设权 重为0.5。
9.如权利要求8所述的用于实验操作规范评价的视频动态抽帧方法, 其特征在于, 还包
括步骤S501, 根据所述损失和Ltotal进行反向求 导, 然后更新所述第二神经网络的参数。
10.如权利要求9所述的用于实验操作规范评价的视频动态抽帧方法, 其特征在于, 所
述第二预设条件包括, 重 复S5和S501的步骤达到预设次数, 或者当所述损失和Ltotal小于第
二阈值时, 停止所述第二阶段训练。权 利 要 求 书 2/2 页
3
CN 115457425 A
3
专利 一种用于实验操作规范评价的视频动态抽帧方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:44上传分享