(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211070202.4
(22)申请日 2022.09.02
(71)申请人 中国矿业大 学
地址 221000 江苏省徐州市南郊翟山
(72)发明人 程德强 张晖敏 寇旗旗 王晓艺
徐飞翔 韩成功 刘敬敬 杨小冬
(74)专利代理 机构 南京正联知识产权代理有限
公司 32243
专利代理师 俞晓梅
(51)Int.Cl.
G06T 7/73(2017.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06T 5/00(2006.01)
G06V 10/26(2022.01)G06V 10/74(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于超像素处 理遮挡的单目深度估计方法
(57)摘要
本发明提供一种基于超像素处理遮挡的单
目深度估计方法, 属于计算机视觉领域, 步骤一,
图像预处理: 对输入的双目图片进行图像去噪以
及生成遮挡物体掩膜; 步骤二, 采用相机位姿估
计进行位姿估计对图像进行重建: 首先进行特征
提取, 相机位姿估计使用Po seCNN, 之后将输入图
像分为三个任务, 分别为语义分割、 三维旋转回
归、 三维平移估计; 步骤三, 采用深度估计网络进
行深度估计对 图像进行重建; 步骤四, 计算光度
重建损失。 使用光度重建损失来识别遮挡, 可 以
有效去除影 响网络训练的遮挡物体; 图像输入网
络之前, 使用聚类分割, 然后使用SSIM指标重新
匹配双目图像对, 网络预测的图像比较单一, 提
高了网络估计的准确率。
权利要求书3页 说明书7页 附图3页
CN 115330874 A
2022.11.11
CN 115330874 A
1.一种基于超像素处 理遮挡的单目深度估计方法, 其特 征在于, 包括以下步骤:
步骤一, 图像预处理: 输入一组双目图片, 对双目图片进行图像去噪, 使用深度图生成
遮挡物体掩膜;
步骤二, 采用相机位姿估计进行位姿估计对图像进行重建: 首先进行特征提取, 相机位
姿估计使用PoseCNN, 之后将 输入图像 分为三个任务, 分别为语义分割、 三维旋转回归、 三维
平移估计;
步骤三, 采用深度估计网络进行深度估计对图像进行重建;
步骤四, 计算 光度重建损失
。
2.如权利要求1所述基于超像素处理遮挡的单目深度估计方法, 其特征在于, 所述步骤
一具体为: 输入一组双目图片, 首先对图片进行滤波, 提高图像的质量; 使用聚类分割算法
对图像进行聚类分割; 初始化种子点, 按照设定的超像素个数, 在图像内均匀的分配种子
点; 假设图片总共有 N 个像素点, 预分割为 K 个相同尺 寸的超像素, 那么每个超像素的大
小为
, 则相邻种子点的距离 即步长近似为
; 在种子点的
邻域内
重新选择种子点; 在每个种子点周围的邻域内为每个像素点分配类标签; 左视图聚类分割
的结果记为集合L, 右视图聚类分割的结果记为集合R, 使用结构性相似指标对左右视图重
新配对; 结构相似性指标公式为
,
其中
,
是输入的图像,
为
的平均数,
为
的平均数,
为
的方差,
为
的方差,
为
和
的协方差,
和
为常数, 其中
,
,
是
像素值的动态范围;
L中的元素为L1,L2,L3...,R中 的元素为R1,R2,R3...,L1与R中 的所有元素计算结构相
似性, 若L1和R1结构相似性指标最小, 即L1和R1最相似, 则L1和R1组成新的双目图像对; 生
成的双目视 觉对用集 合
表示, 计算 光度重建损失, 光度重建损失如下:
,
其中
为原图像,
为重建图像,
为超参数, 计算光度重建损失的平均值
, 计算当前的光度重建损失
, 如果
为真, 则
此双目视 觉对存在遮挡, 直接 丢弃。
3.如权利要求1所述基于超像素处理遮挡的单目深度估计方法, 其特征在于, 所述步骤
二包括提取阶段和嵌入阶段, 特征提取阶段使用13个卷积层和4个最大池化层, 提取高维特权 利 要 求 书 1/3 页
2
CN 115330874 A
2征; 嵌入阶段是将第一阶段生成的高维特征映射嵌入到低维、 特定于任务的特征中; 然后,
执行6D姿势估计的三个不同任务: 语义分割 、 三维旋转回归、 三维平 移估计。
4.如权利要求3所述基于超像素处理遮挡的单目深度估计方法, 其特征在于, 所述步骤
二语义分割 是将特征提取阶段生成的通道尺寸为512的两个特征映射作为输入; 两种特征
图的分辨率分别为原始图像大小的1/8和1/16; 首先使用两个卷积层将两个特征映射的通
道数降低到64; 然后用反卷积层将1/16特征图的分辨率提高一倍; 在此基础上, 对两幅特征
图进行求和, 再利用反卷积层将分辨率提高8倍, 得到具有原始图像大小的特征图; 最后, 卷
积层对特征映射进 行操作, 并生成像素的语义标记分数; 在训练过程中, 采用最大交叉熵损
失来训练语义标记分支; 在测试中, 使用softmax函数计算像素的类概 率。
5.如权利要求4所述基于超像素处理遮挡的单目深度估计方法, 其特征在于, 所述步骤
二三维平移估计即估计目标对象到相机镜头中心的距离, 三维平移
是相机
坐标系中对象原点的坐标; 假设T在图像上的投影是
, 根据假设针孔相机的以
下投影方程 来恢复
和
, 公式如下:
,
是相机的焦距,
是像素坐标系和相机坐标系的相对位移; 之后使用Hough
投票层, 在像素级语义标注结果和中心回归结果中找到二维目标中心。
6.如权利要求5所述基于超像素处理遮挡的单目深度估计方法, 其特征在于, 所述步骤
二三维旋转回归使用Hough投票层预测的对象边界框, 使用两个RoI池层裁剪和汇 集第一阶
段生成的视觉特征; 合并的特征映射被添加到一起, 并输入到三个完全连接的FC层中; 前两
个FC层的维数为4096, 最后一个FC层的维数为4 ×n, n为对象类的个数; 对于每个类, 最后一
个FC层输出由四元 数表示的三维旋转。
7.如权利要求1所述基于超像素处理遮挡的单目深度估计方法, 其特征在于, 所述步骤
三深度估计网络使用U ‑Net编码器‑解码器模 型结构; 编码器是经过预训练的ResNet模 型,
深度解码 器将输出转换为深度值; 输入图像经过归一化处理, 尺 寸变为572 ×572, 使用3 ×3
的卷积层以及Relu激活函数提取特征, 输出尺寸为570 ×570×64的特征, 再次进行卷积以
及Relu操作, 进一步提取特征, 输出568 ×568×64的特征, 两次卷积、 激活操作为一次编码,
一共进行四次编码操作; 每两次编码之间进行2 ×2的最大池化; 解码器的操作主要为反卷
积, 通过反卷积恢复原来的尺度, 把特 征解码为深度图。
8.如权利要求1所述基于超像素处理遮挡的单目深度估计方法, 其特征在于, 所述步骤
四具体为: 原图像和重建图像强制它们彼此一致来获得更好的深度; 在已知深度信息和两
相机位姿的条件下, 图像可在两相机位姿 下相互重 建; 输入两相机的位姿, 深度图像可以在
两相机的坐标系下相互转换; 输入左视图、 深度信息、 相机位姿, 可以反向重构右视图, 重构
的右视图和真实的右视图做结构相似性损失, 以此来约束深度估计的网络; 光度重建损失权 利 要 求 书 2/3 页
3
CN 115330874 A
3
专利 基于超像素处理遮挡的单目深度估计方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:23上传分享