(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210690435.8
(22)申请日 2022.06.17
(71)申请人 南通大学
地址 226019 江苏省南 通市崇川区啬园路9
号
(72)发明人 张晓峰 陈哲 欧垚君 丁红
陶秦 施正阳 魏东
(74)专利代理 机构 南京经纬专利商标代理有限
公司 32200
专利代理师 张俊俊
(51)Int.Cl.
G06V 20/10(2022.01)
G06V 10/42(2022.01)
G06V 10/46(2022.01)
G06V 10/74(2022.01)G06V 10/77(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于二阶注意力机制的回环检测及优
化方法
(57)摘要
本发明公开了一种基于二阶注意力机制的
回环检测及优化方法, 属于计算机视觉图像技术
领域, 解决了传统方法忽略 图像局部特征之间相
关性的问题。 其技术方案为: 包括以下步骤: 步骤
1)、 构建融合VGG16、 二阶注意力机制和NetVLAD
的网络模型SOA ‑NetVLAD; 步骤2)、 采用知 识蒸馏
的方式训练网络模型得到最优参数; 步骤3)、 提
取图像的全局特征; 步骤4)、 采用局部敏感哈希
方法对图像的全局特征降维, 并计算图像 之间的
余弦相似度; 步骤5)、 采用几何验证方式进行回
环验证; 步骤6)、 采用随机采样一致性算法消除
误匹配。 本发明的有益效果为: 本发明的网络模
型中加入了注 意力机制, 能有效的学习局部特征
之间的相关性。
权利要求书3页 说明书7页 附图2页
CN 114926742 A
2022.08.19
CN 114926742 A
1.一种基于二阶注意力机制的回环检测及优化方法, 其特 征在于: 包括以下步骤:
步骤(1)、 构建融合VGG16、 二阶注意力机制SOA和NetVLAD的网络模型SOA ‑NetVLAD: 对
VGG16进行裁剪, 在VGG16的conv5_3层后面加入SOA模块, 并在最后一层加入池化层
NetVLAD;
步骤(2)、 采用知识蒸馏的方式训练网络模型 得到最优参数;
步骤(3)、 对待查询图像和数据库图像进行预处理, 然后输入到SOA ‑NetVALD网络中, 提
取查询图像和数据库图像的全局特 征;
步骤(4)、 对步骤(3)得到的全局特征向量使用局部敏感哈希LSH方法降低维度, 并计算
图像间的余弦相似度, 按照相似度得分对数据库图像进 行排序, 将排序好的前k个数据库图
像作为回环候选帧;
步骤(5)、 引 入几何验证, 判断查询图像与 回环候选图像是否构成真正的回环, 首先提
取查询图像与回环候选图像的SURF 特征, 然后使用CasHash算法进行成对图像匹配;
步骤(6)、 使用随机采样一 致性算法RANSAC消除误匹配, 选择最后的回环候选帧。
2.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法, 其特征在
于, 所述的步骤(1)包括如下步骤:
步骤(1‑1)、 对VGG16网络进行修改, 删除最后一个卷积层conv5_3之后的池化层和全连
接层, 包括RELU激活函数, 并将SOA模块连接到卷积层conv5_3之后, 得到二阶特征图, 最后,
将NetVLAD层连接到在SOA模块的后面作为新的池化层, NetVLAD层将VLAD的思想引入到了
卷积神经网络中;
步骤(1‑2)、 对于VGG16输出的C ×W×H维的特征图x∈RC×W×H, 看作是总数为W ×H的C维
局部描述符xij(i=1,2,...W,j=1,2, ......,H), 首先通 过与D个输出通道的1 ×1卷积生成
表示为f(x)和g(x)的两个映射, 然后经过批归一化层和swish激活, 其中D=2 ×C, 然后将映
射f(x)和g(x)展平为D ×HW的大小, 二阶注意力图的结果如下:
m=softmax( α ·f(x)Tg(x))
其中α 表示比例因子, f(x)T是f(x)的转置, 由此得到的二阶注意力图m的尺寸为HW ×HW,
其值表示特征图m中局部描述符之间的相关性, 最后, 将特征图x和二阶注意力图m合并得到
二阶注意力模块SOA(x)的输出:
SOA(x)=x+v(m ′)
其中m′是形状为HW ×H×W的张量由注意力图m改变尺寸得到, v是1 ×1的卷积函数, 恢
复从HW到 C的通道尺寸, 二阶特 征图SOA(X)的大小为C ×W×H, 与输入特 征图x的大小相同;
步骤(1‑3)、 在二阶注意力模块后面添加一个可训练的NetVLAD层, 把二阶特征图SOA
(x)聚合成紧凑的全局描述符, V LAD是常用于图像检索和图像 分类的描述方法, 把聚集起来
的局部描述子构造成一个 向量, 用该向量作为图像的全局描述子, 若VLAD的输入为单幅图
像的N个D维特征向量{xi}, 参数为K个聚类中心ck, 则输出为一个K ×D维的特征向量, 将其写
成矩阵的形式, 记 做V, 计算公式如下:
其中xi(j)和ck(j)分别代表第i个特征向量和第k个聚类中心的第j个元素, ak(xi)表示权 利 要 求 书 1/3 页
2
CN 114926742 A
2第i个特征向量对应第k个聚类中心的权重, 当该特征属于这个聚类中心时, 权重为1, 否则
为0, 由于VLAD是一个离散函数, 无法通过反向传播, 所以NetVLAD层采用了一种近似的方
式, 将ak(xi)软分配到多个聚类中心, 使其可微:
其中wk=2α ck,bk=‑α ‖ck‖2, α 是一个大于0的参数, α →∞时,
越来趋势于0和1, 上
述公式是softmax函数, 最终Net VLAD层输出的特 征向量为:
3.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法, 其特征在
于: 所述步骤(2)包括如下步骤:
步骤(2‑1)、 在Google Landmark数据集上采用知识蒸馏的方式训练构建网络模型, 获
得最优的参数;
步骤(2‑2)、 将全局特征提取网络SOA ‑NetVLAD作为学生网络, 将以VGG16为骨干的预训
练的NetVLAD 网络作为教师网络, 通过最小化教师网络预测的全局特征与学生网络预测的
全局特征之间的均方误差(MSE)损失来训练全局特 征提取网络 。
4.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法, 其特征在
于,所述步骤(3)包括以下内容:
步骤(3‑1)、 首先将图像大小调整为224 ×224像素, 并减去RGB通道的均值数据, 然后将
图像输入到已在数据集上训练好的网络模型中, 将最后NetVLAD层的输出作为图像的全局
特征表示。
5.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法, 其特征在
于, 所述骤(4)包括以下步骤:
步骤(4‑1)、 将最后NetVLAD层的输出作为图像的全局特征表示为Vi(I),
其中I表示图像, d表示全局特征向量的维度, 对于全局特征, 哈希函数
定义如下:
其中r是从d维空间生成的单位长度的球对称随机向量, v表示图像的全局特征向量, 通
过定义k个随机向量r, 实现卷积特征向量的降维, 即特征向量用长度为k的字节来表示, 对
于两个全局特 征向量u, v, 则:
因此, 得到u,v之间的余弦相似度:
sim(u,v)=cos( θ(u,v))=cos((1 ‑Pr[hr(u)=hr(v)])π )步骤(4 ‑2)、 计算查询图像与
数据库图像全局特征向量之 间的余弦相似度, 根据余弦相似度对数据库图像进行从 高到低
排序, 选取排序结果中排名靠前的k张数据库图像作为回环候选图像。权 利 要 求 书 2/3 页
3
CN 114926742 A
3
专利 一种基于二阶注意力机制的回环检测及优化方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:33上传分享