(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211031456.5
(22)申请日 2022.08.26
(71)申请人 浙江工商大 学
地址 310018 浙江省杭州市下沙高教园区
学正街18号
(72)发明人 杨柏林 李海东 宋超
(74)专利代理 机构 杭州奥创知识产权代理有限
公司 33272
专利代理师 王佳健
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/74(2022.01)
G06V 10/44(2022.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于时间与空间的视频去反光方法
(57)摘要
本发明公开了一种基于时间与空间的视频
去反光方法, 首先制作用于训练的带有反光的视
频帧数据集; 其次将得到的测试集使用编码器获
取视频帧的特征信息, 之后将取得到的特征信
息, 以及经过计算获取位置信息共同输入到时空
间卷积自注 意力子网络当中获取特征信息; 然后
使用预训练好的VGG ‑19网络作为增强策略, 提取
超列特征, 并将这些增强后的特征作为去反光模
块的输入; 最后使用反光模块以及重建模块生成
去反光视频帧。 本发明考虑到了视频帧之间的时
间与空间连贯性, 能够有效的获取交错视频帧之
间的时间与空间信息, 能够得到精确的去反光视
频帧。
权利要求书1页 说明书5页 附图2页
CN 115424173 A
2022.12.02
CN 115424173 A
1.一种基于时间与空间的视频去反光方法, 其特 征在于具体包括以下步骤:
步骤一: 使用视频 数据集, 按照一定的比例划分训练集和 测试集;
分别将数据集的训练集和测试集, 都使用反光图片制作的方式生成反光视频帧, 用于
训练和测试;
步骤二: 将测试集反光视频帧和真实值输入到网络模型中, 使用编码器获取视频帧的
特征信息;
步骤三: 获取像素的位置信息;
步骤四: 将步骤二获取得到的第一特征信息, 以及经过步骤三获取的位置信息共 同输
入到时空间卷积自注意力子网络中, 获取第二特 征信息;
时空间卷积自注意力子网络的操作过程如下:
S1, 使用三个相互独立CN N分别对输入特 征X进行卷积操作, 获得三个输出Q、 K和V;
S2, 将Q转置后与K相乘并计算相似度, 得到的结果再与V相乘;
S3, 将S2得到的结果与Q转置在通道上相加, 得到初步特征, 再将输入特征X与初步特征
在通道上相加, 得到时空间卷积自注意力子网络的输出;
步骤五: 对于步骤四输出的特征信息, 使用预训练好的VGG ‑19网络作 为增强策略, 提取
超列特征;
步骤六: 使用步骤五 获得的超列特 征, 输入到去反光模块当中;
步骤七: 使用重建模块 生成去反光后的视频帧, 并输出;
重复步骤二至步骤 七训练网络模型;
步骤八: 在网络训练结束后, 将测试集输入网络模型, 对 网络模型输出的去反光视频帧
进行评价和 测试网络性能指标。
2.根据权利要求1所述的一种基于时间与空间的视频去反光方法, 其特征在于: 步骤一
所述反光视频帧定义 为:
It=α Bt+(1‑α )Rt
其中It、 Bt和Rt分别表示反光视频帧、 背景层和反光层, α 是0 到1之间的混合 参数。
3.根据权利要求1所述的一种基于时间与空间的视频去反光方法, 其特征在于: 步骤二
所述编码器是由残差块组合而成。
4.根据权利要求1所述的一种基于时间与空间的视频去反光方法, 其特征在于: 步骤六
所述去反光模块是由十三个卷积残差块 堆叠组合而成。
5.根据权利要求1所述的一种基于时间与空间的视频去反光方法, 其特征在于: 步骤七
所述重建模块使用八个密集残差块堆叠组合而成, 其中密集残差块是 由卷积块、 激活函数
和卷积块组成, 并且将重建模块的输入和密集残差块的输出在通道上进行相加。权 利 要 求 书 1/1 页
2
CN 115424173 A
2一种基于时间与空间的视频去反光方 法
技术领域
[0001]本发明属于人工智能视频处理技术领域, 具体涉及一种基于时间与空间的视频去
反光方法。
背景技术
[0002]视频中的反光是在反光表面(如玻璃)后拍摄视频时经常发生的视觉问题, 这些反
光降低了视频的质量, 导致信息丢失, 降低了许多计算机视觉算法的准确性。 包含反光的视
频是背景层和反光层的组合, 因此, 反光去除相当于将视频分解为两层。 然而, 这是一个具
有挑战性和不确定性的问题, 因为存在大量毫无意 义的分解。
[0003]随着数字设备和视频技术的普及, 视频已成为最重要的信息载体之一。 数字设备
的用户遇到的视频捕捉条件可能远远不是最佳的。 例如, 当在建筑物或汽车内的玻璃 窗后
面拍摄视频时, 来自室内物体的反光可能会阻碍户外有趣的场景。 这些反光的形成降低了
视频的质量, 并且降低了目标物体的能见度。
[0004]去除反光的问题已经在图像领域进行了广泛的探索和研究, 并且取得了不错的进
展, 而视频反光的去除问题较少受到重视。 回顾了图像和视频反光去除的相关文献, 自然图
像中的反光是两个不同的画面合成的一种特殊情况, 通过加法混合在一起形成最终的图
像。 传统的单图像反光去除处理不适定问题依赖于强假设。 例如, Levin等人利用自然序列
中的导数滤波器和边缘检测器的统计量作为图像先验, 将图像分解为两层。 Li和Br own等人
假设背景和反光层都有稀疏的梯度, 而反光层 要平滑得多。 Fan等人最近探索了使用深度神
经网络去除图像反光, 该论文介绍了两个子网络: 一个用于预测背 景层的边缘图, 另一个用
于利用该边缘图重建背 景层。 然而, 这种技术仅限于模糊反光工件, 在具有强烈纹理反光的
场景中, 边 缘预测子网络失效, 破坏背景层重建。
[0005]前面提到的所有方法都是为了去除单张图像上的反光。 对于视频帧的修复不仅需
要考虑到像素空间之间的联系, 也要考虑到相邻视频帧时间上的关联。 简单地将之前 的图
像技术扩展到视频中, 例如对一帧一帧地应用该方法, 并不能提供准确的结果, 因为它会导
致生成的结果观察到不完全分离和时间上的闪烁。
[0006]因此, 设计并实现一种能够有效考虑到时间与空间信息 的去除反光的方法, 具有
较强的现实意 义和应用价 值。
[0007]近些年来, 由于Transformer(变换器)在计算机视觉上的强大应用, Cao J等人提
出了VSR, 采用Transformer并且融合了光流的方法, 解决了视频超分辨的问题, 取得了比较
好的效果。 F.Yang等人提出了TTSR, 将Transformer和参考图片的方法相结合, 提出了一种
新的处理单张图片的超分辨率方法, 取得了不错的效果。 整体看来, Transformer对于视频
增强的研究有着很好的效果, 它的效果在某些程度上超过了CNN(卷积神经网络)网络, 说明
该网络架构对特征的时空间连续性的特性刚好可以解决去横纹问题, 因此可以将
Transformer应用在视频去反光上。说 明 书 1/5 页
3
CN 115424173 A
3
专利 一种基于时间与空间的视频去反光方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:30:53上传分享