standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210698689.4 (22)申请日 2022.06.20 (71)申请人 东南大学 地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人 徐启敏 张鸷 李旭  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 张天哲 (51)Int.Cl. G06T 7/50(2017.01) G06T 7/73(2017.01) G06T 5/50(2006.01) G06T 5/00(2006.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于无监督学习的鱼眼相机场景深度 估计方法 (57)摘要 本发明公开了一种基于无监督学习的鱼眼 相机场景深度估计方法, 该方法首先建立生成对 抗网络架构, 对输入的鱼眼图像进行畸变校正处 理; 然后建立场景深度估计网络架构, 对图像进 行深度特征和位姿特征的提取; 接着使用场景深 度图信息和相机位姿信息重构图像, 设计损失函 数训练模型, 优化网络参数; 最终使用训练好的 网络进行深度估计, 得到图像的场景深度图。 该 方法使用鱼眼相机, 具有观测范围广的特点; 所 采用的无监督学习方法, 具有训练方便、 感知结 果准确的特点, 能够满足场景深度估计的需求。 权利要求书3页 说明书7页 附图3页 CN 115063463 A 2022.09.16 CN 115063463 A 1.一种基于无监督学习的鱼眼相机场景深度估计方法, 其特征在于: 首先建立生成对 抗网络架构, 对输入的鱼眼图像进行畸变校正处理; 然后建立场景深度估计网络架构, 对图 像进行深度特征和位姿特征 的提取; 接着使用场景深度图信息和相 机位姿信息重构图像, 设计损失函数训练模 型, 优化网络参数; 最 终使用训练好的网络进 行深度估计, 得到图像的 场景深度图, 具体包括以下步骤: 步骤一: 设计生成对抗网络 设计生成对抗网络对鱼眼图像进行畸变校正; 生成对抗网络由两个生成器和两个判别 器组成; 首先, 构建原始鱼眼图像X和无失真的图像数据集Y作为训练集; 先将X通过生成器G 转换为Y域的无失真图像, 再通过生成器F重构回X域输入的原畸变图像; Y域的图像先通过 生成器F转换为X域的畸变鱼眼图像, 再通过生 成器G重构回Y域输入的原图像; 生成器G和判 别器DY相关联, DY将Y和生成数据G(X)区分, 生成器F和判别器DX相关联, DX将X和生成数据F (Y)区分; 生成器G和生成器F采用以下所述的生成网络结构, 判别器DX和判别器DY采用以下 所述的判别网络结构; 具体包括以下子步骤: 子步骤1.1: 设计生成网络架构 生成网络由编码器网络和解码器网络组成, 编码器网络中的编码器采用下采样的方式 对图像进行特征提取, 解码器网络中的解码器采用上采样方式重建图像; 编码器网络由输 入层、 三个卷积层和 一个全连接层组成, 输入层和全连接层之间的三层滤波器的尺寸分别 为7、 5、 3, 步长分别为2、 2、 4, 特征映射图数目为64、 128、 256, 全连接层的节点为256, 输出一 个标量; 解码器网络由依 次相连接的三个反卷积层和输出层组成, 第一个反卷积层和输出 层之间的三层滤波器尺 寸分别为5、 3、 3, 步长分别为4、 2、 2, 特征映射图数目分别为128,64, 3; 先将一张256 ×256×3鱼眼图像作为输入张量, 编码 器对图像进 行下采样, 由卷积层 对输 入进行特征提取, 激活函数使用Relu; 解码 器使用上采样的方法把特征映射为图像, 使用激 活函数Leaky  Relu对该上采样层 进行激活输出, 最后输出256 ×256×3的图像; 生成网络中 特别使用了实例标准 化层, 在加速模型收敛的同时, 也保持每 个图像实例间的独立 性; 子步骤1.2: 设计对抗网络架构 判别网络采用PatchGANs结构的思想, 由四个卷积层组成, 第一层和最后一层中不使用 实例标准化层, 其余层都使用; 激活函数使用Leaky  Relu, 输出为30 ×30的矩阵, 用矩阵的 均值作为真假判断输出; 子步骤1.3: 设计生成对抗网络的损失函数 生成对抗网络的损失函数由三部分组成, 分别是两个生成器 ‑判别器对的损失, 如式 (1)和式(2)所示; 以及周期循环一 致损失, 如式(3)所示; LGAN(G,DY)=EY~data(Y)[log(DY(Y))]+EX~data(X)[log(1‑DY(G(X)))]         (1) LGAN(F,DX)=EX~data(X)[log(DX(X))]+EY~data(Y)[log(1‑DX(F(Y)))]         (2) Lcycle(G,F)=EX~data(X)|F(G(X))‑X|+EY~data(Y)|G(F(Y))‑Y|          (3) 其中, EX~data(X), EY~data(Y)均表示数 学期望; 综上所述, 所设计的生成对抗神经网络的完整损失如式(4)所示, 其中λc为加权因子, 控 制循环一 致损失的权 重, λc设为10; LGAN(G,F,DX,DY)=LGAN(G,DY)+LGAN(F,DX)+λcLcycle(G,F)          (4) 步骤二: 设计场景深度估计网络权 利 要 求 书 1/3 页 2 CN 115063463 A 2场景深度估计网络由深度感知模块和位姿感知模块组成; 对经过畸变校正后的图像进 行深度估计; 具体包括以下子步骤: 子步骤2.1: 设计深度感知模块 深度感知模块输入经过畸变校正后的目标图像It, 输出该图像的场景深度图Dt, 其结构 由编码器和解码器组成; (1)编码器结构如下: 卷积层1_1: 使用7 ×7的感受野与256 ×256×3的输入张量做卷积, 步长为2, 得到维度 为128×128×64的特征图F1; 卷积层1_2: 使用5 ×5的感受野与卷积层1_1输出的特征图做卷积, 步长为2, 得到维度 为64×64×128的特征图F2; 卷积层1_3: 使用5 ×5的感受野与卷积层1_2输出的特征图做卷积, 步长为2, 得到维度 为32×32×256的特征图F3; 卷积层1_4: 使用3 ×3的感受野与卷积层1_3输出的特征图做卷积, 步长为2, 得到维度 为16×16×512的特征图F4; (2)解码器结构中, 采用反卷积层, 将特征图F4输入, 进行上采样恢复至特征图F3尺寸 的特征图F4 ’, 然后将F3和F4 ’进行特征融合后生成特征图F43; 再将F43作为输入, 进行上采 样恢复至特征图F2尺寸的特征图F3 ’, 然后将F2和F3 ’进行特征融合后生 成特征图F32; 再将 FM32作为输入, 进行上采样恢复至特征图F1尺寸的特征图F2 ’, 然后将F1和F2 ’进行特征融 合后生成特 征图F21; 最后输入一层卷积层, 生成场景深度图; 子步骤2.2: 设计位姿感知模块 位姿感知模块输入经过畸变校正后的目标图像It和相邻时刻的源图像Is这两帧图像, 输出源图像相对于目标图像的位姿Tt→s; 其结构由七个3 ×3的卷积层和一个1 ×1的卷积层 组成, 前七个卷积层均使用激活函数Relu提取图像特征, 然后用1 ×1卷积将特征图通道数 置为6输出特征图, 最后 将特征图的维度变换生成一个六维向量, 该向量即为相 邻帧的相对 摄相机位姿变化; 子步骤2.3: 重构目标图像 根据上述步骤得到的场景深度图和位姿信息, 重构出 目标图像It'; 已知相机内参矩阵 为K, 做如式(5)所示的映射: ps~KTt→sDt(pt)K‑1pt               (5) 其中, pt是目标图像It中一个像素的齐次坐标, 通过式(5)可得该像素在源图像Is上的 投影坐标ps, 重构图像中It'(pt)=Is'(ps); 此时得到的ps是连续值, 采用双线性采样的方法 计算该点 的像素值, 即Is(ps)的值是通过在源图像Is上采样ps周围四个像素的双线性插值 的结果; 如式(6)所示; It'(pt)=Is(ps)=∑i∈{top,bot tom},j∈{left,right}ωijIs(psij)                (6) 其中, ωij与ps和其周围四个像素空间距离 成线性比例且∑i,jωij=1; 通过将目标图像 It的所有像素点投影并采样填充, 从而重构出目标图像It'; 子步骤2.4: 设计场景深度估计网络的损失函数 该场景深度估计网络的损失函数由两部分组成, 分别是重构目标图像损失Lrec如式(7) 所示, 以及深度平 滑损失Lsmooth如式(8)所示;权 利 要 求 书 2/3 页 3 CN 115063463 A 3

.PDF文档 专利 一种基于无监督学习的鱼眼相机场景深度估计方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于无监督学习的鱼眼相机场景深度估计方法 第 1 页 专利 一种基于无监督学习的鱼眼相机场景深度估计方法 第 2 页 专利 一种基于无监督学习的鱼眼相机场景深度估计方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:47:30上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。