standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210690435.8 (22)申请日 2022.06.17 (71)申请人 南通大学 地址 226019 江苏省南 通市崇川区啬园路9 号 (72)发明人 张晓峰 陈哲 欧垚君 丁红  陶秦 施正阳 魏东  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 张俊俊 (51)Int.Cl. G06V 20/10(2022.01) G06V 10/42(2022.01) G06V 10/46(2022.01) G06V 10/74(2022.01)G06V 10/77(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于二阶注意力机制的回环检测及优 化方法 (57)摘要 本发明公开了一种基于二阶注意力机制的 回环检测及优化方法, 属于计算机视觉图像技术 领域, 解决了传统方法忽略 图像局部特征之间相 关性的问题。 其技术方案为: 包括以下步骤: 步骤 1)、 构建融合VGG16、 二阶注意力机制和NetVLAD 的网络模型SOA ‑NetVLAD; 步骤2)、 采用知 识蒸馏 的方式训练网络模型得到最优参数; 步骤3)、 提 取图像的全局特征; 步骤4)、 采用局部敏感哈希 方法对图像的全局特征降维, 并计算图像 之间的 余弦相似度; 步骤5)、 采用几何验证方式进行回 环验证; 步骤6)、 采用随机采样一致性算法消除 误匹配。 本发明的有益效果为: 本发明的网络模 型中加入了注 意力机制, 能有效的学习局部特征 之间的相关性。 权利要求书3页 说明书7页 附图2页 CN 114926742 A 2022.08.19 CN 114926742 A 1.一种基于二阶注意力机制的回环检测及优化方法, 其特 征在于: 包括以下步骤: 步骤(1)、 构建融合VGG16、 二阶注意力机制SOA和NetVLAD的网络模型SOA ‑NetVLAD: 对 VGG16进行裁剪, 在VGG16的conv5_3层后面加入SOA模块, 并在最后一层加入池化层 NetVLAD; 步骤(2)、 采用知识蒸馏的方式训练网络模型 得到最优参数; 步骤(3)、 对待查询图像和数据库图像进行预处理, 然后输入到SOA ‑NetVALD网络中, 提 取查询图像和数据库图像的全局特 征; 步骤(4)、 对步骤(3)得到的全局特征向量使用局部敏感哈希LSH方法降低维度, 并计算 图像间的余弦相似度, 按照相似度得分对数据库图像进 行排序, 将排序好的前k个数据库图 像作为回环候选帧; 步骤(5)、 引 入几何验证, 判断查询图像与 回环候选图像是否构成真正的回环, 首先提 取查询图像与回环候选图像的SURF 特征, 然后使用CasHash算法进行成对图像匹配; 步骤(6)、 使用随机采样一 致性算法RANSAC消除误匹配, 选择最后的回环候选帧。 2.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法, 其特征在 于, 所述的步骤(1)包括如下步骤: 步骤(1‑1)、 对VGG16网络进行修改, 删除最后一个卷积层conv5_3之后的池化层和全连 接层, 包括RELU激活函数, 并将SOA模块连接到卷积层conv5_3之后, 得到二阶特征图, 最后, 将NetVLAD层连接到在SOA模块的后面作为新的池化层, NetVLAD层将VLAD的思想引入到了 卷积神经网络中; 步骤(1‑2)、 对于VGG16输出的C ×W×H维的特征图x∈RC×W×H, 看作是总数为W ×H的C维 局部描述符xij(i=1,2,...W,j=1,2, ......,H), 首先通 过与D个输出通道的1 ×1卷积生成 表示为f(x)和g(x)的两个映射, 然后经过批归一化层和swish激活, 其中D=2 ×C, 然后将映 射f(x)和g(x)展平为D ×HW的大小, 二阶注意力图的结果如下: m=softmax( α ·f(x)Tg(x)) 其中α 表示比例因子, f(x)T是f(x)的转置, 由此得到的二阶注意力图m的尺寸为HW ×HW, 其值表示特征图m中局部描述符之间的相关性, 最后, 将特征图x和二阶注意力图m合并得到 二阶注意力模块SOA(x)的输出: SOA(x)=x+v(m ′) 其中m′是形状为HW ×H×W的张量由注意力图m改变尺寸得到, v是1 ×1的卷积函数, 恢 复从HW到 C的通道尺寸, 二阶特 征图SOA(X)的大小为C ×W×H, 与输入特 征图x的大小相同; 步骤(1‑3)、 在二阶注意力模块后面添加一个可训练的NetVLAD层, 把二阶特征图SOA (x)聚合成紧凑的全局描述符, V LAD是常用于图像检索和图像 分类的描述方法, 把聚集起来 的局部描述子构造成一个 向量, 用该向量作为图像的全局描述子, 若VLAD的输入为单幅图 像的N个D维特征向量{xi}, 参数为K个聚类中心ck, 则输出为一个K ×D维的特征向量, 将其写 成矩阵的形式, 记 做V, 计算公式如下: 其中xi(j)和ck(j)分别代表第i个特征向量和第k个聚类中心的第j个元素, ak(xi)表示权 利 要 求 书 1/3 页 2 CN 114926742 A 2第i个特征向量对应第k个聚类中心的权重, 当该特征属于这个聚类中心时, 权重为1, 否则 为0, 由于VLAD是一个离散函数, 无法通过反向传播, 所以NetVLAD层采用了一种近似的方 式, 将ak(xi)软分配到多个聚类中心, 使其可微: 其中wk=2α ck,bk=‑α ‖ck‖2, α 是一个大于0的参数, α →∞时, 越来趋势于0和1, 上 述公式是softmax函数, 最终Net VLAD层输出的特 征向量为: 3.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法, 其特征在 于: 所述步骤(2)包括如下步骤: 步骤(2‑1)、 在Google  Landmark数据集上采用知识蒸馏的方式训练构建网络模型, 获 得最优的参数; 步骤(2‑2)、 将全局特征提取网络SOA ‑NetVLAD作为学生网络, 将以VGG16为骨干的预训 练的NetVLAD 网络作为教师网络, 通过最小化教师网络预测的全局特征与学生网络预测的 全局特征之间的均方误差(MSE)损失来训练全局特 征提取网络 。 4.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法, 其特征在 于,所述步骤(3)包括以下内容: 步骤(3‑1)、 首先将图像大小调整为224 ×224像素, 并减去RGB通道的均值数据, 然后将 图像输入到已在数据集上训练好的网络模型中, 将最后NetVLAD层的输出作为图像的全局 特征表示。 5.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法, 其特征在 于, 所述骤(4)包括以下步骤: 步骤(4‑1)、 将最后NetVLAD层的输出作为图像的全局特征表示为Vi(I), 其中I表示图像, d表示全局特征向量的维度, 对于全局特征, 哈希函数 定义如下: 其中r是从d维空间生成的单位长度的球对称随机向量, v表示图像的全局特征向量, 通 过定义k个随机向量r, 实现卷积特征向量的降维, 即特征向量用长度为k的字节来表示, 对 于两个全局特 征向量u, v, 则: 因此, 得到u,v之间的余弦相似度: sim(u,v)=cos( θ(u,v))=cos((1 ‑Pr[hr(u)=hr(v)])π )步骤(4 ‑2)、 计算查询图像与 数据库图像全局特征向量之 间的余弦相似度, 根据余弦相似度对数据库图像进行从 高到低 排序, 选取排序结果中排名靠前的k张数据库图像作为回环候选图像。权 利 要 求 书 2/3 页 3 CN 114926742 A 3

PDF文档 专利 一种基于二阶注意力机制的回环检测及优化方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于二阶注意力机制的回环检测及优化方法 第 1 页 专利 一种基于二阶注意力机制的回环检测及优化方法 第 2 页 专利 一种基于二阶注意力机制的回环检测及优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:32:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。