专利 一种基于二阶注意力机制的回环检测及优化方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210690435.8 (22)申请日 2022.06.17 (71)申请人南通大学地址 226019 江苏省南通市崇川区啬园路9 号 (72)发明人张晓峰　陈哲　欧垚君　丁红　陶秦　施正阳　魏东　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 专利代理师张俊俊 (51)Int.Cl. G06V 20/10(2022.01) G06V 10/42(2022.01) G06V 10/46(2022.01) G06V 10/74(2022.01)G06V 10/77(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于二阶注意力机制的回环检测及优化方法 (57)摘要本发明公开了一种基于二阶注意力机制的回环检测及优化方法，属于计算机视觉图像技术领域，解决了传统方法忽略图像局部特征之间相关性的问题。其技术方案为：包括以下步骤：步骤 1)、构建融合VGG16、二阶注意力机制和NetVLAD 的网络模型SOA ‑NetVLAD；步骤2)、采用知识蒸馏的方式训练网络模型得到最优参数；步骤3)、提取图像的全局特征；步骤4)、采用局部敏感哈希方法对图像的全局特征降维，并计算图像之间的余弦相似度；步骤5)、采用几何验证方式进行回环验证；步骤6)、采用随机采样一致性算法消除误匹配。本发明的有益效果为：本发明的网络模型中加入了注意力机制，能有效的学习局部特征之间的相关性。权利要求书3页说明书7页附图2页 CN 114926742 A 2022.08.19 CN 114926742 A 1.一种基于二阶注意力机制的回环检测及优化方法，其特征在于：包括以下步骤：步骤(1)、构建融合VGG16、二阶注意力机制SOA和NetVLAD的网络模型SOA ‑NetVLAD：对 VGG16进行裁剪，在VGG16的conv5_3层后面加入SOA模块，并在最后一层加入池化层 NetVLAD；步骤(2)、采用知识蒸馏的方式训练网络模型得到最优参数；步骤(3)、对待查询图像和数据库图像进行预处理，然后输入到SOA ‑NetVALD网络中，提取查询图像和数据库图像的全局特征；步骤(4)、对步骤(3)得到的全局特征向量使用局部敏感哈希LSH方法降低维度，并计算图像间的余弦相似度，按照相似度得分对数据库图像进行排序，将排序好的前k个数据库图像作为回环候选帧；步骤(5)、引入几何验证，判断查询图像与回环候选图像是否构成真正的回环，首先提取查询图像与回环候选图像的SURF 特征，然后使用CasHash算法进行成对图像匹配；步骤(6)、使用随机采样一致性算法RANSAC消除误匹配，选择最后的回环候选帧。 2.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法，其特征在于，所述的步骤(1)包括如下步骤：步骤(1‑1)、对VGG16网络进行修改，删除最后一个卷积层conv5_3之后的池化层和全连接层，包括RELU激活函数，并将SOA模块连接到卷积层conv5_3之后，得到二阶特征图，最后，将NetVLAD层连接到在SOA模块的后面作为新的池化层， NetVLAD层将VLAD的思想引入到了卷积神经网络中；步骤(1‑2)、对于VGG16输出的C ×W×H维的特征图x∈RC×W×H，看作是总数为W ×H的C维局部描述符xij(i＝1,2,...W,j＝1,2, ......,H)，首先通过与D个输出通道的1 ×1卷积生成表示为f(x)和g(x)的两个映射，然后经过批归一化层和swish激活，其中D＝2 ×C，然后将映射f(x)和g(x)展平为D ×HW的大小，二阶注意力图的结果如下： m＝softmax( α ·f(x)Tg(x)) 其中α 表示比例因子， f(x)T是f(x)的转置，由此得到的二阶注意力图m的尺寸为HW ×HW，其值表示特征图m中局部描述符之间的相关性，最后，将特征图x和二阶注意力图m合并得到二阶注意力模块SOA(x)的输出： SOA(x)＝x+v(m ′) 其中m′是形状为HW ×H×W的张量由注意力图m改变尺寸得到， v是1 ×1的卷积函数，恢复从HW到 C的通道尺寸，二阶特征图SOA(X)的大小为C ×W×H，与输入特征图x的大小相同；步骤(1‑3)、在二阶注意力模块后面添加一个可训练的NetVLAD层，把二阶特征图SOA (x)聚合成紧凑的全局描述符， V LAD是常用于图像检索和图像分类的描述方法，把聚集起来的局部描述子构造成一个向量，用该向量作为图像的全局描述子，若VLAD的输入为单幅图像的N个D维特征向量{xi}，参数为K个聚类中心ck，则输出为一个K ×D维的特征向量，将其写成矩阵的形式，记做V，计算公式如下：其中xi(j)和ck(j)分别代表第i个特征向量和第k个聚类中心的第j个元素， ak(xi)表示权　利　要　求　书 1/3 页 2 CN 114926742 A 2第i个特征向量对应第k个聚类中心的权重，当该特征属于这个聚类中心时，权重为1，否则为0，由于VLAD是一个离散函数，无法通过反向传播，所以NetVLAD层采用了一种近似的方式，将ak(xi)软分配到多个聚类中心，使其可微：其中wk＝2α ck,bk＝‑α ‖ck‖2， α 是一个大于0的参数， α →∞时，越来趋势于0和1，上述公式是softmax函数，最终Net VLAD层输出的特征向量为： 3.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法，其特征在于：所述步骤(2)包括如下步骤：步骤(2‑1)、在Google Landmark数据集上采用知识蒸馏的方式训练构建网络模型，获得最优的参数；步骤(2‑2)、将全局特征提取网络SOA ‑NetVLAD作为学生网络，将以VGG16为骨干的预训练的NetVLAD 网络作为教师网络，通过最小化教师网络预测的全局特征与学生网络预测的全局特征之间的均方误差(MSE)损失来训练全局特征提取网络。 4.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法，其特征在于,所述步骤(3)包括以下内容：步骤(3‑1)、首先将图像大小调整为224 ×224像素，并减去RGB通道的均值数据，然后将图像输入到已在数据集上训练好的网络模型中，将最后NetVLAD层的输出作为图像的全局特征表示。 5.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法，其特征在于，所述骤(4)包括以下步骤：步骤(4‑1)、将最后NetVLAD层的输出作为图像的全局特征表示为Vi(I)，其中I表示图像， d表示全局特征向量的维度，对于全局特征，哈希函数定义如下：其中r是从d维空间生成的单位长度的球对称随机向量， v表示图像的全局特征向量，通过定义k个随机向量r，实现卷积特征向量的降维，即特征向量用长度为k的字节来表示，对于两个全局特征向量u， v，则：因此，得到u,v之间的余弦相似度： sim(u,v)＝cos( θ(u,v))＝cos((1 ‑Pr[hr(u)＝hr(v)])π )步骤(4 ‑2)、计算查询图像与数据库图像全局特征向量之间的余弦相似度，根据余弦相似度对数据库图像进行从高到低排序，选取排序结果中排名靠前的k张数据库图像作为回环候选图像。权　利　要　求　书 2/3 页 3 CN 114926742 A 3

专利 一种基于二阶注意力机制的回环检测及优化方法

专利一种基于二阶注意力机制的回环检测及优化方法