(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211252880.2
(22)申请日 2022.10.13
(71)申请人 深圳大学
地址 518000 广东省深圳市南 山区南海大
道3688号
(72)发明人 李楠 林晓灿
(74)专利代理 机构 深圳市添源创鑫知识产权代
理有限公司 4 4855
专利代理师 姜书新
(51)Int.Cl.
G06T 7/593(2017.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于无监督的单目深度估计构建方法
及系统
(57)摘要
本发明提供了一种基于无监督的单目深度
估计构建方法及系统, 该单目深度估计构建方法
包括以下步骤: 步骤S1, 收集互联网上具有重叠
视角的多张图像组成训练集; 步骤S2: 将立体图
像对输入深度估计模块M2, 以获得估计的深度;
步骤S3: 利用参考图像和目标图像的深度图对进
行不同参数的图像重建; 步骤S4, 利用左右视角
的深度一致性约束构建掩码; 步骤S5, 基于损失
函数对深度估计网络进行梯度回传, 以学习准确
的深度。 本发明的有益效果是: 本发明的单目深
度估计构建方法能利用海量的互联网图像扩充
数据集并加强内在几何一致约束, 从而有效提高
模型对图像深度估计的准确性和应对复杂多变
环境的鲁棒 性。
权利要求书4页 说明书8页 附图3页
CN 115511940 A
2022.12.23
CN 115511940 A
1.一种基于无监 督的单目深度估计构建方法, 其特 征在于, 包括以下步骤:
步骤S1, 收集互联网上 具有重叠视角的多张图像组成训练集;
步骤S2: 将立体图像对输入深度估计模块M2, 以获得估计的深度;
步骤S3: 利用参 考图像和目标图像的深度图对进行不同参数的图像重建;
步骤S4, 利用左右视角的深度一 致性约束构建掩码;
步骤S5, 基于损失函数对深度估计网络进行梯度回传, 以学习准确的深度。
2.根据权利要求1所述的单目深度估计构建方法, 其特征在于, 在所述步骤S1中, 具体
还包括:
步骤S10, 在互联网收集具有重叠视角的图像, 并将收集到的图像缩放裁剪到设定尺寸
和分辨率;
步骤S11, 估计各个图像之间的相机内外参数;
步骤S12, 筛 选符合条件的立体图像对组成训练集。
3.根据权利要求2所述的单目深度估计构建方法, 其特征在于, 在所述步骤S11中, 首先
利用SFM技术求取相机内参{K}和相机外参{R, t}, 然后根据相机外参{R, t}对 具有重叠视角
的立体图像对进行符合条件的筛选, 筛选立体图像对的条件为: 图像间的旋转角度限制为
3°之内, 并将 每个立体图像对的平移距离限制为0.3之内, 再将满足条件的立体图像对加入
训练集之中, 获得筛 选后的立体图像。
4.根据权利要求1所述的单目深度估计构建方法, 其特征在于, 在所述步骤S2中, 利用
深度估计模块M2中的Encode网络提取图像特征, 利用深度估计模块M2中的Decode网络融合
多尺度图像特征, 分别输入左右视图, 通过Encode网络提取每幅图像的多尺度深度特征, 利
用Decode对多尺度图像特 征进行融合, 输出左右视图的深度图。
5.根据权利要求1所述的单目深度估计构建方法, 其特征在于, 在所述步骤S3中, 由得
到的深度图以及参考图像来合成目标图像, 不同视角下的两幅图像的对应点存在以下关
系:
x2~H∞x1+e′/Z (I)
其中, x1, x2分别为左右图像的对应 点,
为无穷单应, e ′=K2t2, 是另外一幅
图像的对极点, Z为物体在三维空间的真实深度;
由(1)式, 重建合成图像I2→1:
I2→1(x1)=I2(x2) (2)。
6.根据权利要求1所述的单目深度估计构建方法, 其特征在于, 在所述步骤S4中, 具体
包括:
步骤S40, 根据参考视角下估计出来的深度图重建目标视角下的合成深度图, 数学公式
表示为:
其中, Mi为第i个相机参数左边3 ×3的矩阵,
为Mi矩阵的第3行,
为第i个相机参数
Pi的伪逆矩阵的第四行;
步骤S41, 比较目标视角下的合成深度图和深度估计模型的目标深度图的差异, 筛选出权 利 要 求 书 1/4 页
2
CN 115511940 A
2差异较小的像素点, 同时剔除超出投影超出图像边界的像素点, 具体形式为:
其中, δ是衡量是否存在遮挡的阈值, D1为图1的深度图, D2→1是用图2的深度图, 输入深
度一致性模块估计出来的在图1视角下的深度图。
7.根据权利要求1所述的单目深度估计构建方法, 其特征在于, 在所述步骤S5中, 具体
还包括:
步骤S50, 计算目标图像和重建的目标图像的光度损失,其公式如下:
其中, SSIM为图像结构相似性度量, α 为衡量图像间SSIM和L1范数之间的权重, I1是图像
1, I2→1是用图2重建出的图1视角下的合成图;
步骤S51,计算目标图像和估计深度图的平 滑损失, 其公式如下:
其中,
分别为深度图D*沿x轴, y轴的梯度,
分别为深度图I沿x轴,
y轴的梯度;
步骤S52, 计算左右视角下估计深度图的一 致性损失, 其公式如下:
Lc=|D1‑D2→1| (7)
最终, 自监 督算法的总训练损失为:
L=Lp⊙Mask+Ls+Lc (8)
其中,⊙为哈达玛积。
8.一种基于无监 督的单目深度估计构建系统, 其特 征在于, 包括:
数据处理模块M1: 用于收集互联网上 具有重叠视角的多张图像, 并将其组成训练集;
深度估计模块M2: 用于将立体图像对输入深度估计模块, 以获得估计的深度;
图像重建模块M3: 用于利用参考图像和目标图像的深度图对进行不同参数的图像重
建;
左右深度一 致模块M4: 用于利用左右视角的深度一 致性约束构建掩码;
掩码模块M 5: 用于基于损失函数对深度估计网络进行梯度回传, 以学习准确的深度。
9.根据权利要求8所述的单目深度估计构建系统, 其特征在于, 在所述数据处理模块M1
中, 还包括:
图像收集及处理单元: 用于在互联网收集具有重叠视角的图像, 并将收集到的图像缩
放裁剪到设定尺寸和分辨 率;
参数单元: 用于估计各个图像之间的相机内外参数;
筛选单元: 用于筛选符合条件的立体图像对组成训练集。
在所述深度估计模块M2中, 利用所述深度估计模块M2中的Encode网络提取图像特征,
利用所述深度估计模块M2 中的Decode网络融合多尺度图像特征, 分别输入左右视图, 通过
Encode网络提取每幅图像的多尺度深度特征, 利用Decode对多尺度图像特征进行融合, 输
出左右视图的深度图;权 利 要 求 书 2/4 页
3
CN 115511940 A
3
专利 一种基于无监督的单目深度估计构建方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:39上传分享