(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211031456.5 (22)申请日 2022.08.26 (71)申请人 浙江工商大 学 地址 310018 浙江省杭州市下沙高教园区 学正街18号 (72)发明人 杨柏林 李海东 宋超  (74)专利代理 机构 杭州奥创知识产权代理有限 公司 33272 专利代理师 王佳健 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/74(2022.01) G06V 10/44(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称 一种基于时间与空间的视频去反光方法 (57)摘要 本发明公开了一种基于时间与空间的视频 去反光方法, 首先制作用于训练的带有反光的视 频帧数据集; 其次将得到的测试集使用编码器获 取视频帧的特征信息, 之后将取得到的特征信 息, 以及经过计算获取位置信息共同输入到时空 间卷积自注 意力子网络当中获取特征信息; 然后 使用预训练好的VGG ‑19网络作为增强策略, 提取 超列特征, 并将这些增强后的特征作为去反光模 块的输入; 最后使用反光模块以及重建模块生成 去反光视频帧。 本发明考虑到了视频帧之间的时 间与空间连贯性, 能够有效的获取交错视频帧之 间的时间与空间信息, 能够得到精确的去反光视 频帧。 权利要求书1页 说明书5页 附图2页 CN 115424173 A 2022.12.02 CN 115424173 A 1.一种基于时间与空间的视频去反光方法, 其特 征在于具体包括以下步骤: 步骤一: 使用视频 数据集, 按照一定的比例划分训练集和 测试集; 分别将数据集的训练集和测试集, 都使用反光图片制作的方式生成反光视频帧, 用于 训练和测试; 步骤二: 将测试集反光视频帧和真实值输入到网络模型中, 使用编码器获取视频帧的 特征信息; 步骤三: 获取像素的位置信息; 步骤四: 将步骤二获取得到的第一特征信息, 以及经过步骤三获取的位置信息共 同输 入到时空间卷积自注意力子网络中, 获取第二特 征信息; 时空间卷积自注意力子网络的操作过程如下: S1, 使用三个相互独立CN N分别对输入特 征X进行卷积操作, 获得三个输出Q、 K和V; S2, 将Q转置后与K相乘并计算相似度, 得到的结果再与V相乘; S3, 将S2得到的结果与Q转置在通道上相加, 得到初步特征, 再将输入特征X与初步特征 在通道上相加, 得到时空间卷积自注意力子网络的输出; 步骤五: 对于步骤四输出的特征信息, 使用预训练好的VGG ‑19网络作 为增强策略, 提取 超列特征; 步骤六: 使用步骤五 获得的超列特 征, 输入到去反光模块当中; 步骤七: 使用重建模块 生成去反光后的视频帧, 并输出; 重复步骤二至步骤 七训练网络模型; 步骤八: 在网络训练结束后, 将测试集输入网络模型, 对 网络模型输出的去反光视频帧 进行评价和 测试网络性能指标。 2.根据权利要求1所述的一种基于时间与空间的视频去反光方法, 其特征在于: 步骤一 所述反光视频帧定义 为: It=α Bt+(1‑α )Rt 其中It、 Bt和Rt分别表示反光视频帧、 背景层和反光层, α 是0 到1之间的混合 参数。 3.根据权利要求1所述的一种基于时间与空间的视频去反光方法, 其特征在于: 步骤二 所述编码器是由残差块组合而成。 4.根据权利要求1所述的一种基于时间与空间的视频去反光方法, 其特征在于: 步骤六 所述去反光模块是由十三个卷积残差块 堆叠组合而成。 5.根据权利要求1所述的一种基于时间与空间的视频去反光方法, 其特征在于: 步骤七 所述重建模块使用八个密集残差块堆叠组合而成, 其中密集残差块是 由卷积块、 激活函数 和卷积块组成, 并且将重建模块的输入和密集残差块的输出在通道上进行相加。权 利 要 求 书 1/1 页 2 CN 115424173 A 2一种基于时间与空间的视频去反光方 法 技术领域 [0001]本发明属于人工智能视频处理技术领域, 具体涉及一种基于时间与空间的视频去 反光方法。 背景技术 [0002]视频中的反光是在反光表面(如玻璃)后拍摄视频时经常发生的视觉问题, 这些反 光降低了视频的质量, 导致信息丢失, 降低了许多计算机视觉算法的准确性。 包含反光的视 频是背景层和反光层的组合, 因此, 反光去除相当于将视频分解为两层。 然而, 这是一个具 有挑战性和不确定性的问题, 因为存在大量毫无意 义的分解。 [0003]随着数字设备和视频技术的普及, 视频已成为最重要的信息载体之一。 数字设备 的用户遇到的视频捕捉条件可能远远不是最佳的。 例如, 当在建筑物或汽车内的玻璃 窗后 面拍摄视频时, 来自室内物体的反光可能会阻碍户外有趣的场景。 这些反光的形成降低了 视频的质量, 并且降低了目标物体的能见度。 [0004]去除反光的问题已经在图像领域进行了广泛的探索和研究, 并且取得了不错的进 展, 而视频反光的去除问题较少受到重视。 回顾了图像和视频反光去除的相关文献, 自然图 像中的反光是两个不同的画面合成的一种特殊情况, 通过加法混合在一起形成最终的图 像。 传统的单图像反光去除处理不适定问题依赖于强假设。 例如, Levin等人利用自然序列 中的导数滤波器和边缘检测器的统计量作为图像先验, 将图像分解为两层。 Li和Br own等人 假设背景和反光层都有稀疏的梯度, 而反光层 要平滑得多。 Fan等人最近探索了使用深度神 经网络去除图像反光, 该论文介绍了两个子网络: 一个用于预测背 景层的边缘图, 另一个用 于利用该边缘图重建背 景层。 然而, 这种技术仅限于模糊反光工件, 在具有强烈纹理反光的 场景中, 边 缘预测子网络失效, 破坏背景层重建。 [0005]前面提到的所有方法都是为了去除单张图像上的反光。 对于视频帧的修复不仅需 要考虑到像素空间之间的联系, 也要考虑到相邻视频帧时间上的关联。 简单地将之前 的图 像技术扩展到视频中, 例如对一帧一帧地应用该方法, 并不能提供准确的结果, 因为它会导 致生成的结果观察到不完全分离和时间上的闪烁。 [0006]因此, 设计并实现一种能够有效考虑到时间与空间信息 的去除反光的方法, 具有 较强的现实意 义和应用价 值。 [0007]近些年来, 由于Transformer(变换器)在计算机视觉上的强大应用, Cao  J等人提 出了VSR, 采用Transformer并且融合了光流的方法, 解决了视频超分辨的问题, 取得了比较 好的效果。 F.Yang等人提出了TTSR, 将Transformer和参考图片的方法相结合, 提出了一种 新的处理单张图片的超分辨率方法, 取得了不错的效果。 整体看来, Transformer对于视频 增强的研究有着很好的效果, 它的效果在某些程度上超过了CNN(卷积神经网络)网络, 说明 该网络架构对特征的时空间连续性的特性刚好可以解决去横纹问题, 因此可以将 Transformer应用在视频去反光上。说 明 书 1/5 页 3 CN 115424173 A 3

PDF文档 专利 一种基于时间与空间的视频去反光方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于时间与空间的视频去反光方法 第 1 页 专利 一种基于时间与空间的视频去反光方法 第 2 页 专利 一种基于时间与空间的视频去反光方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:30:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。