专利 一种面向三维场景重建的高精度单目深度估计系统及方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210999767.4 (22)申请日 2022.08.19 (71)申请人中国矿业大学地址 221000 江苏省徐州市南郊翟山 (72)发明人程德强　王伟臣　寇旗旗　吕晨　王晓艺　徐飞翔　韩成功　张皓翔　 (74)专利代理机构南京正联知识产权代理有限公司 32243 专利代理师俞晓梅 (51)Int.Cl. G06T 7/50(2017.01) G06T 7/11(2017.01) G06T 5/10(2006.01) G06T 17/00(2006.01) G06V 10/74(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种面向三维场景重建的高精度单目深度估计系统及方法 (57)摘要本发明公开一种面向三维场景重建的高精度单目深度估计系统及方法，属于图像处理技术领域，在编码器处通过引入 V i s i o n Transformers主干网络， ViT主干网络代替卷积网络作为密集预测的主干架构，以恒定的和相对较高的分辨率处理表示，并在每个阶段都有一个全局的接受域，以减少卷积网络中下采样过程中的信息丢失，从而获取图像更多的细节特征和感受野。在解码器处通过利用小波变换来捕获深度图中深度不同的平坦区域之间的深度 “跳跃”，这些“跳跃”可以很好地在高频分量中捕获，从而达到强化深度信息图边缘的效果。通过对ViT和小波变换的引入，能够在不使得网络计算更复杂的前提下，又兼顾单目深度估计网络模型对全局特征和局部边缘特征的提取，提高单目深度估计的精度。权利要求书2页说明书7页附图3页 CN 115272438 A 2022.11.01 CN 115272438 A 1.一种面向三维场景重建的高精度单目深度估计系统，包括视觉转换器网络、自监督单目深度估计网络架构、小波逆变换解码器网络，其特征在于，所述视觉转换器网络为ViT 主干网络，将输入的单幅图片经过ViT主干网络的transformer转换器和reassemble重组模块进行特征提取，并将瓶颈尺度的特征图片送入到深度估计网络和位姿估计网络；所述自监督单目深度估计网络架构包括有深度估计网络和位姿估计网络，深度估计网络将接收到的瓶颈尺度的特征图片预测出其的深度信息，位姿估计网络负责计算出前后帧之间的物体运动轨迹；所述小波逆变换解码器网络，将预测出的瓶颈尺度的深度信息图进行小波逆变换不断迭代上采样，最终输出深度信息图。 2.一种基于权利要求1所述的面向三维场景重建的高精度单目深度估计方法，其特征在于，包括有以下步骤：步骤一，输入图像， ViT主干网络通过将输入的图像分割成所有大小为像素的不重叠的正方形补丁，从图像中提取一个补丁嵌入，这些补丁被展成向量，并使用线性投影单独嵌入；将单独嵌入到特征空间的图像补丁，或者从图像中提取的深度特征，称之为标记；转化器使用串联的多头自注意转换标记集合，标记彼此关联以转换表示；步骤二，标记通过多个转换器传递，将经过转换器的每组标记重新组合成各种分辨率下的类似图像的特征表示；步骤三，然后基于深度估计网络和位姿估计网络，通过预测ViT架构的瓶颈尺度上的粗略估计，重建一个深度估计信息图；步骤四，最后通过小波逆变换解码器网络利用预测其小波高频系数图进行小波逆变换迭代上采样并完善这个深度估计信息图，得到最终的深度信息图。 3.如权利要求2所述的面向三维场景重建的高精度单目深度估计方法，其特征在于，所述步骤一ViT 主干网络的编码器在所有转换器阶段都保持初始嵌入的空间分辨率。 4.如权利要求2所述的面向三维场景重建的高精度单目深度估计方法，其特征在于，所述步骤一在初始嵌入后的每一阶段，转换器都有一个全局的接受域。 5.如权利要求2所述的面向三维场景重建的高精度单目深度估计方法，其特征在于，所述步骤三估计深度估计网络用于从单幅图像中预测场景中物体之间的相对深度信息，位姿估计网络用于预测两个视图或视频两帧之间的物体相对运动关系。 6.如权利要求2所述的面向三维场景重建的高精度单目深度估计方法，其特征在于，所述深度估计网络和位姿估计网络为自监督单目深度估计的网络架构，自监督单目深度估计训练过程如下：给定目标图像和源图像，联合训练系统预测目标图像的密集深度图和目标到原图像的相对相机姿态，然后构造光度重投影损失函数如下：，其中表示光度重建误差，是L1和结构相似度（S SIM）损失的加权组合，定义为：权　利　要　求　书 1/2 页 2 CN 115272438 A 2其中是根据目标图像的深度扭曲到目标坐标系的源图像，取； SSIM定量比较两张图片的相似性：，是转换函数，将目标图像的像素映射到源图像上，，而是局部亚可微的双线性采样算子； K为相机内参，假设它固定不变；边缘平滑损失函数为：，其中是平均归一化深度。 7.如权利要求6所述的面向三维场景重建的高精度单目深度估计方法，其特征在于，在基础自监督损失函数的基础上引入了尺度一致损失：，其中表示将源图像深度图根据相机姿态向目标深度图扭曲投影后，再将像素网格对齐至的深度图；总损失函数L的计算公式如下，的作用是充当掩模，来判断重投影的光度误差是否小于原光度误差；若小于，则为1；反之为0；而参数为0.001。权　利　要　求　书 2/2 页 3 CN 115272438 A 3

专利 一种面向三维场景重建的高精度单目深度估计系统及方法

专利一种面向三维场景重建的高精度单目深度估计系统及方法