专利 一种场景自适应视频数据集的构建方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210957164.8 (22)申请日 2022.08.10 (71)申请人山东大学地址 266237 山东省青岛市即墨滨海路72 号 (72)发明人杨阳　张南南　刘云霞　孙齐悦　李雪　雷良健　 (74)专利代理机构济南圣达知识产权代理有限公司 372 21 专利代理师李琳 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/75(2022.01) G06V 10/74(2022.01) G06V 10/764(2022.01) (54)发明名称一种场景自适应视频数据集的构建方法及系统 (57)摘要本发明提供了一种场景自适应视频数据集的构建方法及系统，基于已有场景的各种行为视频数据，对目标场景与现有场景进行语义分析和相似度匹配，利用预训练好的行为分类模型对现有行为数据进行分类，获取目标行为视频数据，提出场景自适应机制，设计基于视频序列内容的目标跟踪算法，获取行为目标序列信息，利用背景抠除算法对目标序列检测框进行前景目标提取，再根据目标场景的属性与内容进行场景自适应转换、目标序列迁移与优化，生成目标场景下所需目标行为的高质量视频数据。本发明可以快速实现多种场景的自适应数据生成，无需目标场景提供大量视频数据，对目标场景数据量的要求较低，有助于行为检测与识别等应用。权利要求书2页说明书7页附图3页 CN 115424164 A 2022.12.02 CN 115424164 A 1.一种场景自适应视频数据集的构建方法，其特征是，包括以下步骤：基于已有场景的各种行为视频数据，对目标场景与已有场景进行语义分析和相似度匹配；获取相似度超过预定值的已有场景的行为数据，利用预训练好的行为分类模型进行分类，获取目标行为视频数据；对目标行为视频数据进行目标跟踪，得到行为目标序列信息，对目标序列检测框进行前景目标提取；根据目标场景的属性与内容，对行为目标序列进行场景自适应转换，获得与目标场景更加相似的目标序列；将目标序列与目标背景图进行合成、拼接，得到具有连续行为动作的目标场景下所需行为的视频数据集。 2.如权利要求1所述的一种场景自适应视频数据集的构建方法，其特征是，基于已有场景的各种行为视频数据，对目标场景与已有场景进行语义分析和相似度匹配的具体过程包括：将目标场景与已有场景进行语义分析，获取场景内容属性特征，并将目标场景与已有场景进行场景相似度匹配，获取与目标场景相似的已有场景行为数据。 3.如权利要求1所述的一种场景自适应视频数据集的构建方法，其特征是，利用预训练好的行为分类模型进行分类的具体过程包括，将相似的已有场景的行为视频数据送入行为分类网络模型中进行批量分类，依次对视频流进行编码，通过卷积计算特征，以特征作为输入，生成不同长度的可能包含行为的时间范围，对时间范围进行过滤，将特征和不同长度的时间范围段转换成固定长度的特征图，最后进行行为类别分类并预测精修后的行为边界。 4.如权利要求1所述的一种场景自适应视频数据集的构建方法，其特征是，对目标行为视频数据进行目标跟踪的具体过程包括：利用目标跟踪算法，对视频中的运动实体进行跟踪，逐帧或隔帧分别获取各运动目标的检测框与坐标位置，并分别将各个运动对象的目标检测框进行保存，获得连续的具有时间关联信息的行为目标序列检测框图像。 5.如权利要求1所述的一种场景自适应视频数据集的构建方法，其特征是，对目标序列检测框进行前景目标提取的具体过程包括，利用背景抠除方法，将每一帧中各目标序列检测框图像中的前景信息和背景信息分离，去除图像背景，获取感兴趣的具有时间关联性的行为目标序列图像信息。 6.如权利要求5所述的一种场景自适应视频数据集的构建方法，其特征是，引入透明度通道的概念，认为图像由前景、背景和透明度组成，所述透明度为该点像素属于前景的概率，将经过处理的原图和临近帧生成的辅助信息，与背景图一起送入编码器，接着通过残差结构和解码器模块输出透明度与前景，不断缩小透明度、前景与原始图像颜色的误差，经过数次迭代训练，最终提取出感兴趣的前景目标序列。 7.如权利要求1所述的一种场景自适应视频数据集的构建方法，其特征是，将目标序列与目标背景图进行合成、拼接的具体过程包括，将目标序列按帧与目标背景图进行合成，获得合成图像，将行为合成图像按帧进行拼接，获得具有连续行为动作的目标场景下特定行为的视频数据。 8.一种场景自适应视频数据集的构建系统，其特征是，包括：场景语义分析匹配模块，被配置为基于已有场景的各种行为视频数据，对目标场景与权　利　要　求　书 1/2 页 2 CN 115424164 A 2已有场景进行语义分析和相似度匹配；已有场景下行为视频分类模块，被配置为获取相似度超过预定值的已有场景的行为数据，利用预训练好的行为分类模型进行分类，获取目标行为视频数据；目标序列信息提取模块，被配置为对目标行为视频数据进行目标跟踪，得到行为目标序列信息，对目标序列检测框进行前景目标提取；场景自适应转换模块，被配置为根据目标场景的属性与内容，对行为目标序列进行场景自适应转换，获得与目标场景更加相似的目标序列；行为视频数据生成模块，被配置为将目标序列与目标背景图进行合成、拼接，得到具有连续行为动作的目标场景下所需行为的视频数据集。 9.一种计算机可读存储介质，其特征是，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1 ‑7中任一项所述的方法中的步骤。 10.一种终端设备，其特征是，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1‑7中任一项所述的方法中的步骤。权　利　要　求　书 2/2 页 3 CN 115424164 A 3

专利 一种场景自适应视频数据集的构建方法及系统

专利一种场景自适应视频数据集的构建方法及系统