(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210466169.0
(22)申请日 2022.04.29
(71)申请人 西安理工大 学
地址 710048 陕西省西安市碑林区金花 南
路5号
(72)发明人 宋霄罡 李宏娟 梁莉 黑新宏
(74)专利代理 机构 西安弘理专利事务所 61214
专利代理师 徐瑶
(51)Int.Cl.
G06T 7/73(2017.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于混合注意力的相机 定位方法
(57)摘要
本发明公开了一种基于混合注意力的相机
定位方法, 步骤1, 构建基于非局部自注意力的相
机定位的卷积神经网络; 步骤2, 将经步骤1建立
的神经网络进行训练; 步骤3, 将经步骤2训练好
的网络进行测试; 经过测试, 本发明在7Sc enes和
Oxford RobotCar数据集上定位精度得到明显提
升。
权利要求书2页 说明书7页 附图1页
CN 114820792 A
2022.07.29
CN 114820792 A
1.一种基于混合注意力的相机 定位方法, 其特 征在于, 具体按以下步骤实施:
步骤1, 构建基于非局部自注意力的相机 定位的卷积神经网络;
步骤2, 将经步骤1建立的神经网络进行训练;
步骤3, 将经步骤2训练好的网络进行测试。
2.根据权利要求1所述的一种基于混合注意力的相机定位方法, 其特征在于, 所述步骤
1的卷积神经网络包括特征编码模块、 混合注意力模块和位姿回归模块三部 分, 具体按以下
步骤实施:
步骤1.1, 图像输入网络, 通过 特征编码模块进行 下采样提取 特征;
步骤1.2, 经过通道注意力和非局部自注意力模块捕获特征图上的通道层面和空间层
面的依赖关系, 输出 具有依赖关系的注意力权 重图;
步骤1.3, 将计算得到的注意力权 重输入位姿回归器用于回归相机位姿。
3.根据权利要求2所述的一种基于混合注意力的相机定位方法, 其特征在于, 所述步骤
1.1具体按以下步骤实施:
步骤1.1.1, 输入RGB图像, 将图片大小设置为256 ×256, 即输入网络的图片尺寸为256
×256×3;
步骤1.1.2, 对输入图像进行一次普通7 ×7卷积操作, 图片大小变为128 ×128, 通道数
调整为64 通道, 并进行批量归一 化与Relu函数激活;
步骤1.1.3, 将步骤1.1.2中所得特征图传入残差卷积块进行16次残差卷积, 卷积核为3
×3, 输出图片大小8 ×8, 通道数为512的特 征图;
步骤1.1.4, 将步骤1.1.3所得特征图进行平均池化和全连接操作, 最后输出2048通道
的特征图。
4.根据权利要求3所述的一种基于混合注意力的相机定位方法, 其特征在于, 所述步骤
1.1.3中残差卷积块的构造为: 首先通过3 ×3卷积进行通道扩张, 并进行BN与Relu激活; 然
后通过3×3卷积进行 特征提取, 并进行BN与Relu激活。
5.根据权利要求2所述的一种基于混合注意力的相机定位方法, 其特征在于, 所述步骤
1.2具体按以下步骤实施:
步骤1.2.1, 将特征提取模块所得到的特征图传入混合注意力模块, 同时构 建通道注意
力和非局部自注意力;
步骤1.2.2, 将特征提取模块输出的特征图传入通道注意力模块, 从特征通道层面统计
图像的全局特 征;
步骤1.2.3, 将步骤1.2.2输出的特征图传入非局部自注意力模块, 捕获长范围图片特
征的依赖性, 最后, 输出 具有2048通道的特 征图。
6.根据权利要求2或5所述的一种基于混合注意力的相机定位方法, 其特征在于, 所述
步骤1.3具体按以下步骤实施:
步骤1.3.1, 将步骤1.2.3得到 的2048维特征图输入位姿回归器中, 构造多层感知机模
块;
步骤1.3.2, 将特 征图输入 全连接层, 得到1 ×1×2048大小的特 征图;
步骤1.3.3, 将得到的特征图分别输入到两个全连接层, 得到两个分别代表平移和旋转
的三维特 征向量;权 利 要 求 书 1/2 页
2
CN 114820792 A
2步骤1.3.4, 将得到的两个三维向量进行叠加, 最后得到一个六维的位姿向量。
7.根据权利要求1所述的一种基于混合注意力的相机定位方法, 其特征在于, 所述步骤
2中网络训练的数据集分为室内数据集和室外数据集, 室内数据集为7Scenes, 室外数据集
为Oxford RobotCar, 具体按以下步骤实施:
步骤2.1, 加载 数据集, 初始化权 重参数;
步骤2.2, 将数据集数据进行分割, 将70%的图像用于训练, 3 0%的图像用于估计;
步骤2.3, 采用L1损失函数, 每5个epoc h之后输出训练损失值;
步骤2.4, 初始学习率定为5e ‑5, 训练采用学习率自动下降的方式;
步骤2.5, 训练到 600epoch后loss值不在下降, 停止训练并保存 模型。
8.根据权利要求7所述的一种基于混合注意力的相机定位方法, 其特征在于, 所述步骤
2.2具体按以下步骤实施:
首先将训练集按照预先设定的batch输入网络, 然后将数据 集里的图片resize为256像
素, 再将图像归一化使像素强度在( ‑1,1)范围之内, 在Oxford RobotCar数据集上, 将亮度、
对比度和饱和度设置为0.7, 色调设置为0.5 。
9.根据权利要求1所述的一种基于混合注意力的相机定位方法, 其特征在于, 所述步骤
3具体按以下步骤实施:
步骤3.1, 加载 数据集中的测试图片, 并设定相机位姿回归维数;
步骤3.2, 加载训练后的模型参数并读取测试 数据集;
步骤3.3, 将数据集图像 每一帧传入相机回归 模型, 对像素点进行回归预测;
步骤3.4, 计算回归位姿的平 移和旋转 误差。权 利 要 求 书 2/2 页
3
CN 114820792 A
3
专利 一种基于混合注意力的相机定位方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 09:47:51上传分享