专利 基于超像素处理遮挡的单目深度估计方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211070202.4 (22)申请日 2022.09.02 (71)申请人中国矿业大学地址 221000 江苏省徐州市南郊翟山 (72)发明人程德强　张晖敏　寇旗旗　王晓艺　徐飞翔　韩成功　刘敬敬　杨小冬　 (74)专利代理机构南京正联知识产权代理有限公司 32243 专利代理师俞晓梅 (51)Int.Cl. G06T 7/73(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 5/00(2006.01) G06V 10/26(2022.01)G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称基于超像素处理遮挡的单目深度估计方法 (57)摘要本发明提供一种基于超像素处理遮挡的单目深度估计方法，属于计算机视觉领域，步骤一，图像预处理：对输入的双目图片进行图像去噪以及生成遮挡物体掩膜；步骤二，采用相机位姿估计进行位姿估计对图像进行重建：首先进行特征提取，相机位姿估计使用Po seCNN，之后将输入图像分为三个任务，分别为语义分割、三维旋转回归、三维平移估计；步骤三，采用深度估计网络进行深度估计对图像进行重建；步骤四，计算光度重建损失。使用光度重建损失来识别遮挡，可以有效去除影响网络训练的遮挡物体；图像输入网络之前，使用聚类分割，然后使用SSIM指标重新匹配双目图像对，网络预测的图像比较单一，提高了网络估计的准确率。权利要求书3页说明书7页附图3页 CN 115330874 A 2022.11.11 CN 115330874 A 1.一种基于超像素处理遮挡的单目深度估计方法，其特征在于，包括以下步骤：步骤一，图像预处理：输入一组双目图片，对双目图片进行图像去噪，使用深度图生成遮挡物体掩膜；步骤二，采用相机位姿估计进行位姿估计对图像进行重建：首先进行特征提取，相机位姿估计使用PoseCNN，之后将输入图像分为三个任务，分别为语义分割、三维旋转回归、三维平移估计；步骤三，采用深度估计网络进行深度估计对图像进行重建；步骤四，计算光度重建损失。 2.如权利要求1所述基于超像素处理遮挡的单目深度估计方法，其特征在于，所述步骤一具体为：输入一组双目图片，首先对图片进行滤波，提高图像的质量；使用聚类分割算法对图像进行聚类分割；初始化种子点，按照设定的超像素个数，在图像内均匀的分配种子点；假设图片总共有 N 个像素点，预分割为 K 个相同尺寸的超像素，那么每个超像素的大小为，则相邻种子点的距离即步长近似为；在种子点的邻域内重新选择种子点；在每个种子点周围的邻域内为每个像素点分配类标签；左视图聚类分割的结果记为集合L，右视图聚类分割的结果记为集合R，使用结构性相似指标对左右视图重新配对；结构相似性指标公式为，其中，是输入的图像，为的平均数, 为的平均数，为的方差，为的方差，为和的协方差，和为常数，其中，，是像素值的动态范围； L中的元素为L1,L2,L3...,R中的元素为R1,R2,R3...,L1与R中的所有元素计算结构相似性，若L1和R1结构相似性指标最小，即L1和R1最相似，则L1和R1组成新的双目图像对；生成的双目视觉对用集合表示，计算光度重建损失，光度重建损失如下：，其中为原图像，为重建图像，为超参数，计算光度重建损失的平均值，计算当前的光度重建损失，如果为真，则此双目视觉对存在遮挡，直接丢弃。 3.如权利要求1所述基于超像素处理遮挡的单目深度估计方法，其特征在于，所述步骤二包括提取阶段和嵌入阶段，特征提取阶段使用13个卷积层和4个最大池化层，提取高维特权　利　要　求　书 1/3 页 2 CN 115330874 A 2征；嵌入阶段是将第一阶段生成的高维特征映射嵌入到低维、特定于任务的特征中；然后，执行6D姿势估计的三个不同任务：语义分割、三维旋转回归、三维平移估计。 4.如权利要求3所述基于超像素处理遮挡的单目深度估计方法，其特征在于，所述步骤二语义分割是将特征提取阶段生成的通道尺寸为512的两个特征映射作为输入；两种特征图的分辨率分别为原始图像大小的1/8和1/16；首先使用两个卷积层将两个特征映射的通道数降低到64；然后用反卷积层将1/16特征图的分辨率提高一倍；在此基础上，对两幅特征图进行求和，再利用反卷积层将分辨率提高8倍，得到具有原始图像大小的特征图；最后，卷积层对特征映射进行操作，并生成像素的语义标记分数；在训练过程中，采用最大交叉熵损失来训练语义标记分支；在测试中，使用softmax函数计算像素的类概率。 5.如权利要求4所述基于超像素处理遮挡的单目深度估计方法，其特征在于，所述步骤二三维平移估计即估计目标对象到相机镜头中心的距离，三维平移是相机坐标系中对象原点的坐标；假设T在图像上的投影是，根据假设针孔相机的以下投影方程来恢复和，公式如下：，是相机的焦距，是像素坐标系和相机坐标系的相对位移；之后使用Hough 投票层，在像素级语义标注结果和中心回归结果中找到二维目标中心。 6.如权利要求5所述基于超像素处理遮挡的单目深度估计方法，其特征在于，所述步骤二三维旋转回归使用Hough投票层预测的对象边界框，使用两个RoI池层裁剪和汇集第一阶段生成的视觉特征；合并的特征映射被添加到一起，并输入到三个完全连接的FC层中；前两个FC层的维数为4096，最后一个FC层的维数为4 ×n， n为对象类的个数；对于每个类，最后一个FC层输出由四元数表示的三维旋转。 7.如权利要求1所述基于超像素处理遮挡的单目深度估计方法，其特征在于，所述步骤三深度估计网络使用U ‑Net编码器‑解码器模型结构；编码器是经过预训练的ResNet模型，深度解码器将输出转换为深度值；输入图像经过归一化处理，尺寸变为572 ×572，使用3 ×3 的卷积层以及Relu激活函数提取特征，输出尺寸为570 ×570×64的特征，再次进行卷积以及Relu操作，进一步提取特征，输出568 ×568×64的特征，两次卷积、激活操作为一次编码，一共进行四次编码操作；每两次编码之间进行2 ×2的最大池化；解码器的操作主要为反卷积，通过反卷积恢复原来的尺度，把特征解码为深度图。 8.如权利要求1所述基于超像素处理遮挡的单目深度估计方法，其特征在于，所述步骤四具体为：原图像和重建图像强制它们彼此一致来获得更好的深度；在已知深度信息和两相机位姿的条件下，图像可在两相机位姿下相互重建；输入两相机的位姿，深度图像可以在两相机的坐标系下相互转换；输入左视图、深度信息、相机位姿，可以反向重构右视图，重构的右视图和真实的右视图做结构相似性损失，以此来约束深度估计的网络；光度重建损失权　利　要　求　书 2/3 页 3 CN 115330874 A 3

专利 基于超像素处理遮挡的单目深度估计方法

专利基于超像素处理遮挡的单目深度估计方法