专利 一种融合注意力机制的单目三维重建方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211004639.8 (22)申请日 2022.08.22 (71)申请人东北大学秦皇岛分校地址 066004 河北省秦皇岛市经济技术开发区泰山路143号 (72)发明人沙晓鹏　肖乐　司晓鹏　曹加奇　齐宁　李文超　 (74)专利代理机构沈阳东大知识产权代理有限公司 21109 专利代理师李珉 (51)Int.Cl. G06T 17/00(2006.01) G06V 10/74(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种融合注意力机制的单目三维重建方法 (57)摘要本发明提供一种融合注意力机制的单目三维重建方法，涉及三维重建技术领域。本方法对输入单目图像进行透视变换，得到图片对，对其进行特征检测，得到相应的特征点，并投影回原始图像上，再将图片对输入一个单一且共享的编码器中，将原始图像映射到一个具有更小空间维度和更大通道深度的中间向量中，接着将中间向量分别输入一个特征点解码器和一个描述子解码器中，获得图像的特征点集合与对应描述子，通过MLP网络对处理后图像的特征点和描述子编码进同一个特征，通过融合注意力机制的图神经网络得到用于特征匹配的代价矩阵，利用 SinkHorn算法求解，剔除误匹配点，最后得到三维重建模型。权利要求书3页说明书8页附图2页 CN 115375844 A 2022.11.22 CN 115375844 A 1.一种融合注意力机制的单目三维重建方法，其特征在于，包括以下步骤：步骤1：建立虚拟数据集和真实数据集；虚拟数据集中包含模拟图像，真实数据集包含相机拍摄所得的真实单目图像；所述模拟图像为，由计算机随机生成带有边缘特征和角特征的模拟图像，包括棋盘格、立方体、椭圆、不相交的线、相交的线、单个多边形、若干多边形、条纹以及高斯噪声共9类图像，以图像自带特征点的坐标作为伪标签，图像尺寸为H ×W， H代表图像的高度， W代表图像的宽度；步骤2：基于有监督学习的训练方法，用模拟图像和伪标签训练能检测出边缘和角点的特征检测器；步骤3：对真实单目图像进行N 次透视变换，形成变形图片，将变换后得到的变形图像分别输入特征检测器中，得到N个特征点检测结果图，得到相应的特征点，将特征点投影回真实单目图像上，叠加后作为真实单目图像的稀疏特征点，得到已知位姿关系的图片对；步骤4：将真实单目图像作为输入，分别采用步骤2中的特征检测器对图片对进行编码操作，在编码处的特征通道大小是64、 64、 128、 128，接着通过relu激活函数和3个最大池化层将图像尺寸转化为Hc×Wc×128，其中Hc为处理后图像的高度，在数值上表示为H/8， Wc为处理后图像的高度，在数值上表示为W/8，将进行编码操作后的输出张量分别输入特征解码器与描述子解码器；步骤5：将真实数据集中所有真实单目图像进行如步骤4所述的处理，得到一个新的含有特征点与描述子信息的图像集；步骤6：取图像集中相邻两幅图像，定义为图像A与图像B，输入特征匹配网络；步骤7：将特征输入融合注意力机制的图神经网络；所述融合注意力机制的图神经网络使用了两种无向图： (1)连接特征点i和同一张图内其他特征点的无向图δself，将图A中的特征点i与该图中其余各个特征点一一比对寻找关联性； (2)连接特征点i和另一张图内其他特征点的无向图δcross，将图A中的特征点i与图B中各个特征点一一比对寻找关联性；在两个无向图上均进行一次运算视作一次迭代，每轮迭代的结果与本轮初始特征的合成方式为直接相加；图δ为δself和δcross的集合，其中所有特征点j:(i,j)∈δ通过图神经网络注意力聚合后得到聚合信息mδ→i，表示为: 其中， vj为特征点i对应的键值， αij为注意力权重；得到信息mδ→i后，进一步对特征进行更新：其中为第l层图像A上特征点i对应的特征，为第l+1层图像A上特征点i对应的特征，当l为奇数时计算δself的信息， l为偶数时计算δcross的信息，反复迭代模拟用户进行匹配时反复浏览的过程；步骤8：重复步骤7，直到特征收敛，对迭代后所有特征点的特征通过MLP网络构建出最权　利　要　求　书 1/3 页 2 CN 115375844 A 2终匹配所使用的代价矩阵，表示将特征点两两匹配所需付出的代价，特征点间的相似度越低，代价越高；迭代完成后得到融合了位置信息以及周围其他特征点信息的描述子向量经过一层MLP运算得到匹配描述子fiA以及fiB， fiA与fiB公式表示为：其中， b为偏置量，从而构建最终匹配所用的代价矩阵其中<·,·>为点乘操作；步骤9：采用SinkHorn算法，以最小的全局代价对图像A与图像B中的特征点进行特征匹配，添加熵正则化约束以近似求解，并为代价矩阵增加额外的一行一列作为垃圾桶区域，其内代价为固定值，用于存放无有效匹配的特征点与错误的匹配；若代价矩阵内某点和额外添加层匹配，则认为该点是没有匹配成功的；根据所得到的代价矩阵，计算各特征点处是否存在匹配关系；用Si nkHorn算法对其求解，得到特征匹配结果；步骤10：步骤9计算完成后，舍弃垃圾桶区域，得到图像A与图像B之间的最终特征匹配结果；步骤11：重复步骤6～步骤10，得到图像集中所有图像间的特征匹配结果；步骤12：将得到的特征点、特征矩阵和特征匹配结果输入colmap中进行稀疏重建，获得相机参数、三维点云、图像间匹配对信息；步骤13将相机参数、三维点云、图像间匹配对信息输入三维重建网络MVSNet，进行稠密重建，得到三维重建结果。 2.根据权利要求1所述的一种融合注意力机制的单目三维重建方法，其特征在于，步骤 2中所述特征检测器为，用VGG类模型对尺寸为H ×W的模拟图像进行编码，缩小图片尺寸并增加通道数，得到尺寸为H/8×W/8×64的特征图，在通道维度进行softmax计算图像内各点为特征点的概率，添加一条回收通道用于存放无特征点的情况，采用softmax激活函数，去除非特征点的回收通道，将特征图尺寸还原为H×W，用非极大值抑制NMS对计算结果进行处理得到输入虚拟图像的稀疏特征点，选择概率大于设定值的点作为特征点，将处理后的特征图尺寸恢复为H ×W，得到特征检测器。 3.根据权利要求1所述的一种融合注意力机制的单目三维重建方法，其特征在于，步骤 4中所述特征点检测器的检测流程为步骤3，检测所得的稀疏特征点集合定义为p，特征点检测器的损失函数L选用交叉熵损失，定义为：式中， xhw和yhw的下标hw为像素点的坐标， xhw为特征点的真值， yhw为像素点是否为特征点的概率值；所述描述子检测器，先通过一层卷积将输入维度处理为Hc×Wc×256，采用UCN网络得到半稠密的描述子，利用双三次多项式插值法得到其余描述子，结合后通过L2正则化归一化描述子得到统一的特征向量描述子d；权　利　要　求　书 2/3 页 3 CN 115375844 A 3

专利 一种融合注意力机制的单目三维重建方法

专利一种融合注意力机制的单目三维重建方法