(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211004639.8
(22)申请日 2022.08.22
(71)申请人 东北大学秦皇岛分校
地址 066004 河北省秦皇岛市经济技 术开
发区泰山路143号
(72)发明人 沙晓鹏 肖乐 司晓鹏 曹加奇
齐宁 李文超
(74)专利代理 机构 沈阳东大知识产权代理有限
公司 21109
专利代理师 李珉
(51)Int.Cl.
G06T 17/00(2006.01)
G06V 10/74(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种融合注意力机制的单目三维重建方法
(57)摘要
本发明提供一种融合注意力机制的单目三
维重建方法, 涉及三维重建技术领域。 本方法对
输入单目图像进行透视变换, 得到图片对, 对其
进行特征检测, 得到相应的特征点, 并投影回原
始图像上, 再将图片对输入一个单一且共享的编
码器中, 将原始图像映射到一个具有更小空间维
度和更大通道深度的中间向量中, 接着将中间向
量分别输入一个特征点解码器和一个描述子解
码器中, 获得图像的特征点集合与对应描述子,
通过MLP网络对处理后图像的特征点和描述子编
码进同一个特征, 通过融合注 意力机制的图神经
网络得到用于特征匹配的代价矩阵 , 利用
SinkHorn算法求解, 剔除误匹配点, 最后得到三
维重建模型。
权利要求书3页 说明书8页 附图2页
CN 115375844 A
2022.11.22
CN 115375844 A
1.一种融合注意力机制的单目三维重建方法, 其特 征在于, 包括以下步骤:
步骤1: 建立虚拟数据集和真实数据集; 虚拟数据集中包含模拟图像, 真实数据集包含
相机拍摄所 得的真实单目图像;
所述模拟图像为, 由计算机随机生成带有边缘特征和角特征的模拟图像, 包括棋盘格、
立方体、 椭圆、 不相交的线、 相交的线、 单个多边形、 若干多边形、 条 纹以及高斯噪声共9类图
像, 以图像自带特征点的坐标作为伪标签, 图像尺寸为H ×W, H代表图像的高度, W代表图像
的宽度;
步骤2: 基于有监督学习的训练方法, 用模拟图像和伪标签训练能检测出边缘和角点的
特征检测器;
步骤3: 对真实单目图像进行N 次透视变换, 形成变形图片, 将变换后得到的变形图像分
别输入特征检测 器中, 得到N个特征点检测结果图, 得到相应的特征点, 将特征点投影回真
实单目图像上, 叠加后作为真实单目图像的稀疏 特征点, 得到已知位姿关系的图片对;
步骤4: 将真实单目图像作为输入, 分别采用步骤2中的特征检测器对图片对进行编码
操作, 在编码 处的特征通道大小是64、 64、 128、 128, 接着通过relu激活函数和3个最大池化
层将图像尺寸转化为Hc×Wc×128, 其中Hc为处理后图像的高度, 在数值上表示为H/8, Wc为
处理后图像的高度, 在数值上表示为W/8, 将进 行编码操作后的输出张量分别输入 特征解码
器与描述子解码器;
步骤5: 将真实数据集中所有真实单目图像进行如步骤4所述的处理, 得到一个新的含
有特征点与描述子信息的图像集;
步骤6: 取图像集中相邻两幅图像, 定义 为图像A与图像B, 输入特 征匹配网络;
步骤7: 将特 征
输入融合注意力机制的图神经网络;
所述融合注意力机制的图神经网络使用了两种无向图: (1)连接特征点i和同一张图内
其他特征点的无向图δself, 将图A中的特征点i与该图中其余各个特征点一一比对寻找 关联
性; (2)连接特征点i和另一张图内其他特征点的无向图δcross, 将图A中的特征点i与图B中各
个特征点一一比对寻找关联性; 在两个无向图上均进行一次运算视作一次迭代, 每轮迭代
的结果与本轮初始特 征的合成方式为 直接相加;
图δ为δself和δcross的集合, 其中所有特征点j:(i,j)∈δ通过图神 经网络注意力聚合后
得到聚合信息mδ→i, 表示为:
其中, vj为特征点i对应的键值, αij为注意力权 重;
得到信息mδ→i后, 进一步对特征进行更新:
其中
为第l层图像A上特征点i对应的特征,
为第l+1层图像A上特征点i对应
的特征, 当l为奇数时计算δself的信息, l为偶数时计算δcross的信息, 反复迭代模拟用户进行
匹配时反复浏览的过程;
步骤8: 重复步骤7, 直到特征收敛, 对迭代后所有特征点的特征通过MLP网络构建出最权 利 要 求 书 1/3 页
2
CN 115375844 A
2终匹配所使用的代价矩阵, 表示将特征点两两匹配所需付出 的代价, 特征点间的相似度越
低, 代价越高;
迭代完成后得到融合了位置信息以及周围其他特征点信息的描述子向量
经过一
层MLP运算得到匹配描述子fiA以及fiB, fiA与fiB公式表示 为:
其中, b为偏置量, 从而构建最终匹配所用的代价矩阵
其中<·,·>为点乘操作;
步骤9: 采用SinkHorn算法, 以最小的全局代价对图像A与图像B中的特征点进行特征匹
配, 添加熵正则化约束以近似求解, 并为代价矩阵增加额外的一行一列作为垃圾桶区域, 其
内代价为固定值, 用于存放无有效匹配的特征点与错误的匹配; 若代价矩阵内某点和额外
添加层匹配, 则认 为该点是没有匹配成功的; 根据所得到的代价矩阵, 计算各特征点处是否
存在匹配关系; 用Si nkHorn算法对其 求解, 得到特 征匹配结果;
步骤10: 步骤9计算完成后, 舍弃垃圾桶区域, 得到图像A与图像B之间的最终特征匹配
结果;
步骤11: 重复步骤6~步骤10, 得到图像集中所有图像间的特 征匹配结果;
步骤12: 将得到的特征点、 特征矩阵和特征匹配结果输入colmap中进行稀疏重建, 获得
相机参数、 三维点云、 图像间匹配对信息;
步骤13将相机参数、 三维点云、 图像 间匹配对信息输入三维重建网络MVSNet, 进行稠密
重建, 得到三维重建结果。
2.根据权利要求1所述的一种融合注意力 机制的单目三维重建方法, 其特征在于, 步骤
2中所述特征检测器为, 用VGG类模型对尺寸为H ×W的模拟图像进行编码, 缩小图片尺寸并
增加通道数, 得到尺 寸为H/8×W/8×64的特征图, 在通道维度进行softmax计算图像内各点
为特征点的概率, 添加一条回收通道用于存放无特征点的情况, 采用softmax激活函数, 去
除非特征点的回收通道, 将特征图尺寸还原 为H×W, 用非极大值抑制NMS对计算结果进 行处
理得到输入虚拟图像的稀疏特征点, 选择概率大于设定值的点作为特征点, 将处理后的特
征图尺寸恢复为H ×W, 得到特 征检测器。
3.根据权利要求1所述的一种融合注意力 机制的单目三维重建方法, 其特征在于, 步骤
4中所述特征点检测器的检测流程为步骤3, 检测所得的稀疏特征点集合定义为p, 特征点检
测器的损失函数L选用交叉熵损失, 定义 为:
式中, xhw和yhw的下标hw为像素点的坐标, xhw为特征点的真值, yhw为像素点是否为特征
点的概率值;
所述描述子检测器, 先通过一层卷积将输入维度处理为Hc×Wc×256, 采用UCN网络得到
半稠密的描述子, 利用双三次多项式插值法得到其余描述子, 结合后通过L2正则化归一化
描述子得到统一的特 征向量描述子d;权 利 要 求 书 2/3 页
3
CN 115375844 A
3
专利 一种融合注意力机制的单目三维重建方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:33上传分享