standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210999767.4 (22)申请日 2022.08.19 (71)申请人 中国矿业大 学 地址 221000 江苏省徐州市南郊翟山 (72)发明人 程德强 王伟臣 寇旗旗 吕晨  王晓艺 徐飞翔 韩成功 张皓翔  (74)专利代理 机构 南京正联知识产权代理有限 公司 32243 专利代理师 俞晓梅 (51)Int.Cl. G06T 7/50(2017.01) G06T 7/11(2017.01) G06T 5/10(2006.01) G06T 17/00(2006.01) G06V 10/74(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种面向三维场景重建的高精度单目深度 估计系统及方法 (57)摘要 本发明公开一种面向三维场景重建的高精 度单目深度估计系统及方法, 属于图像处理技术 领 域 ,在 编 码 器 处 通 过 引 入 V i s i o n   Transformers主干网络, ViT主干网络代替卷积 网络作为密集预测的主干架构, 以恒定的和相对 较高的分辨率处理表示, 并在每个阶段都有一个 全局的接受域, 以减少卷积网络中下采样过程中 的信息丢失, 从而获取图像更多的细节特征和感 受野。 在解码器处通过利用小波变换来捕获深度 图中深度不同的平坦区域之间的深度 “跳跃”, 这 些“跳跃”可以很好地在高频分量中捕获, 从而达 到强化深度信息图边缘的效果。 通过对ViT和小 波变换的引入, 能够在不使 得网络计算更复杂的 前提下, 又 兼顾单目深度估计网络模 型对全局特 征和局部边缘特征的提取, 提高单目深度估计的 精度。 权利要求书2页 说明书7页 附图3页 CN 115272438 A 2022.11.01 CN 115272438 A 1.一种面向三维场景重建的高精度单目深度估计系统, 包括视觉转换器网络、 自监督 单目深度估计网络架构、 小波逆变换解码器网络, 其特征在于, 所述视觉转换器网络为ViT 主干网络, 将输入的单幅图片经过ViT主干网络的transformer转换器和reassemble重组模 块进行特征提取, 并将瓶颈尺度的特 征图片送入到深度估计网络和位姿估计网络; 所述自监督单目深度估计网络架构包括有深度估计网络和位姿估计网络, 深度估计网 络将接收到的瓶颈尺度的特征图片预测出其的深度信息, 位姿估计网络负责计算出前后帧 之间的物体运动轨 迹; 所述小波逆变换解码器网络, 将预测出的瓶颈尺度的深度信 息图进行小波逆变换不断 迭代上采样, 最终输出深度信息图。 2.一种基于权利要求1所述的面向三维场景重建的高精度单目深度估计方法, 其特征 在于, 包括有以下步骤: 步骤一, 输入图像, ViT主干网络通过将输入的图像分割成所有大小为 像素的不重 叠的正方形补丁, 从图像中提取一个补丁嵌入, 这些补丁被展成向量, 并使用线性投影单独 嵌入; 将单独嵌入到特征空间的图像补丁, 或者从图像中提取的深度特征, 称之为标记; 转 化器使用串联的多头自注意 转换标记集合, 标记彼此关联以转换表示; 步骤二, 标记通过多个转换器传递, 将经过转换器的每组标记重新组合成各种分辨率 下的类似图像的特 征表示; 步骤三, 然后基于深度估计网络和位姿估计网络, 通过预测ViT架构的瓶颈尺度上的粗 略估计, 重建一个深度估计信息图; 步骤四, 最后通过小波逆变换解码器网络利用预测其小波高频系数图进行小波逆变换 迭代上采样并完 善这个深度估计信息图, 得到最终的深度信息图。 3.如权利要求2所述的面向三维场景重建的高精度 单目深度估计方法, 其特征在于, 所 述步骤一ViT 主干网络的编码器在所有转换器阶段都保持初始嵌入的空间分辨 率。 4.如权利要求2所述的面向三维场景重建的高精度 单目深度估计方法, 其特征在于, 所 述步骤一在 初始嵌入后的每一阶段, 转换器都有一个全局的接受域。 5.如权利要求2所述的面向三维场景重建的高精度 单目深度估计方法, 其特征在于, 所 述步骤三估计深度估计网络用于从单幅图像中预测 场景中物体之 间的相对深度信息, 位姿 估计网络用于预测两个视图或视频两帧之间的物体相对运动关系。 6.如权利要求2所述的面向三维场景重建的高精度 单目深度估计方法, 其特征在于, 所 述深度估计网络和位姿估计网络为自监督单目深度估计的网络架构, 自监督单目深度估计 训练过程如下: 给定目标图像 和源图像 , 联合训练系统预测目标图像的密集深度图 和目标到 原图像的相对相机姿态 , 然后构造光度重投影损失函数如下:  , 其中 表示光度重建误差, 是L1和结构相似度 (S SIM) 损失的加权组合, 定义 为:权 利 要 求 书 1/2 页 2 CN 115272438 A 2其中 是根据目标图像的深度扭曲到目标坐标系的源图像, 取 ; SSIM定 量比较两张图片的相似性: , 是转换函数, 将目标图像的像素 映射到源图像 上,  , 而 是局部亚可微的双线性采样算子; K为相机内参, 假设它固定不变; 边缘平滑损失 函数为: , 其中 是平均归一 化深度。 7.如权利要求6所述的面向三维场景重建的高精度 单目深度估计方法, 其特征在于, 在 基础 自监督损失函数的基础上引入了尺度一 致损失: , 其中 表示将源图像深度图 根据相机姿态 向目标深度图 扭曲投影后, 再将像素网格对齐至 的深度图; 总损失函数L的计算公式如下  , 的作用是充当掩模, 来判断重投影的光度 误差是否小于原光度误差; 若小于, 则为1; 反之为0; 而参数 为0.001。权 利 要 求 书 2/2 页 3 CN 115272438 A 3

PDF文档 专利 一种面向三维场景重建的高精度单目深度估计系统及方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向三维场景重建的高精度单目深度估计系统及方法 第 1 页 专利 一种面向三维场景重建的高精度单目深度估计系统及方法 第 2 页 专利 一种面向三维场景重建的高精度单目深度估计系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:31:34上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。