(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210478747.2
(22)申请日 2022.05.05
(71)申请人 武汉大学
地址 430072 湖北省武汉市武昌区珞珈山
街道八一路2 99号
(72)发明人 陈玉敏 褚天佑 徐真珍 陈国栋
陈娒杰 陈玥君 苏恒
(74)专利代理 机构 武汉科皓知识产权代理事务
所(特殊普通 合伙) 42222
专利代理师 王琪
(51)Int.Cl.
G06T 7/73(2017.01)
G06V 10/762(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于深度学习和街景图像的图像定位
方法
(57)摘要
本发明提出了一种基于深度学习和街景图
像的图像定位方法, 为了提取图像中具有地理位
置信息的图像特征, 构建了基于深度学习的特征
提取网络, 利用地标数据集来提高网络对含有位
置信息的特征的权重; 然后通过特征聚合方法提
取街景图像的聚合特征来提高特征进行匹配时
的速度, 同时利用特征相似度计算方法来降低重
复纹理特征的影 响; 最后通过核密度估计方法的
局部峰值确定待定位图像的地理位置坐标, 并可
以提高结果中正确位置的坐标排名, 从而进一步
提高整体定位的准确率, 为图像中反映的事件的
空间分布和发展趋势分析提供支持。
权利要求书3页 说明书8页 附图2页
CN 114972506 A
2022.08.30
CN 114972506 A
1.一种基于深度学习和街景图像的图像定位方法, 其特 征在于, 包括以下步骤:
步骤1, 街景与待定位图像数据获取与处 理;
步骤2, 生成训练数据集;
步骤3, 构建特征提取网络: 建立一个端到端的深度卷积神经网络来提取街景和待定位
图像的特征, 网络前一部 分由全卷积神经网络组成, 负责提取图像的密集特征, 在 全卷积网
络之后加入特征筛选网络模块, 所述特征筛选网络模块由平滑层、 注意力 层和白化层组成,
用来对前一部分输出的密集特 征进行筛 选;
步骤4, 训练特征提取网络并提取街景的局部图像特征: 使用训练数据集对步骤3中的
特征提取网络进行训练, 在训练数据输入特征提取网络前, 根据图像标签随机生成一系列
二元组对, 每个元组由一个基准图像、 一个正样本和若干个负样本组成, 训练时, 使用损失
函数对网络进行迭代优化, 直到网络 收敛得到特征提取网络模型, 通过该模型提取街景图
像的局部图像特 征;
步骤5, 生成特征码本并计算聚合特征: 随机选取部分街景图像的局部图像特征, 设置
需要生成的聚类中心数然后进 行特征聚类, 生 成特征码本, 根据特征码本, 计算待定位图像
和所有参 考数据集中街景图的聚合特 征向量, 每张图像对应一个聚合特 征;
步骤6, 建立倒排索引并进行街景匹配: 根据聚合特征和街景图像的一一对应关系, 建
立用于通过特征来查询街景图像的倒排索引表, 将待定位图像的特征向量与街景图像的特
征向量进行相似度计算, 返回相似度高的街景特征并排序, 并根据倒排索引表查询检索得
到的街景 特征以获得对应的街景图像;
步骤7, 根据检索结果返回位置坐标: 通过核密度估计方法, 同时考虑检索结果的经纬
度信息和相似度排名来估计空间中相似度分布的峰值, 将其作为定位的候选结果, 根据峰
值大小返回待定位图像的坐标位置 。
2.如权利要求1所述的一种基于深度 学习和街景图像的图像定位方法, 其特征在于: 步
骤1的具体实现方式如下;
步骤1.1, 待定位图像可以通过新闻网站、 社交媒体或相机拍摄方法获取, 街景图像可
以通过网络街景地图服务、 街景车辆采集方法获取, 另外收集街景对应的元数据, 包括经纬
度信息;
步骤1.2, 对街景图像进行预处理; 对于等距全景图的处理, 首先将街景图像进行拼接,
获得完整的街景全景图, 然后对街景全 景图进行裁剪, 去除上下两侧或左右两侧的无效值,
从而将图像的长 宽比保持为2: 1;
步骤1.3, 生成街景透视图; 根据设置的投影参数, 将每张街景全景图变换为无变形的
多张平面透视街景图, 投影方法包含两步, 首先将全景图投影到一个球面上, 然后设置合适
的投影参数将其投影在 平面上, 投影参数设置为, FOV: 60 °, Pitch: [5°20°35°]、 Yaw: [0 °45°
90°135°180°225°270°315°], 其中, FOV为视场角, Pitch为俯仰角, Y aw为航向角, 根据三个
参数的组合, 每一张全景图可生成多张一定大小的街景图。
3.如权利要求1所述的一种基于深度 学习和街景图像的图像定位方法, 其特征在于: 步
骤2的具体实现方式如下;
步骤2.1, 收集谷歌地标数据集v2, 根据元数据标签下载并存储数据, 从中随机选取N类
别的图像;权 利 要 求 书 1/3 页
2
CN 114972506 A
2步骤2.2, 对地标数据 集进行清洗 并生成训练集, 提取N类中图像的SIFT图像特征, 将一
个类中的图像与本类的其他图像进行匹配, 若匹配特征点总数量小于 设定的阈值则将该图
像剔除, 反 之则保留, 利用清洗后的地标 数据集生成训练集。
4.如权利要求1所述的一种基于深度 学习和街景图像的图像定位方法, 其特征在于: 步
骤3中, 全 卷积神经网络通过ResNet网络去除最后的池化层和全连接层这两层来构成, 并将
该网络之后连接特征筛选模块来对密集特征进行打分和选择, 特征筛选模块由平滑层、 注
意力层和白化层组成; 平滑层聚合密集特征中相邻的多个通道中较大 的激活值, 由M ×M大
小的平均池化层构成; 注意力层为密集特征进行打分, 筛选出得分较高的前n个局部特征,
由l2归一化函数实现; 白化层对特征进行降维和去相关性, 由1 ×1大小带有偏置的卷积层
构成, 网络参数在网络训练前通过 预训练网络提取的局部图像特 征训练得到 。
5.如权利要求1所述的一种基于深度 学习和街景图像的图像定位方法, 其特征在于: 步
骤4中, 在网络训练时, 通过池化方法提取网络的全局池化特征, 该特征为1 ×1×D维, 计算
方法如下:
其中, v表示网络输出的卷积特征图, w(v)为注意力层函数计算输出的权重, f(v ′)为网
络输出的卷积特征v经过平滑层和白化层后得到的局部特征, H为特征图长度, W为特征图宽
度;
使用全局池化特 征计算网络的损失, 其中使用的损失函数表示如下:
其中, d为元组内样本的特征间的欧式距离, y为元组内的样本是否属于同一类, 若是则
取值为1, 反之为0, N为样本个数, margi n为设定的阈值;
网络每次迭代优化前, 根据训练数据的图像标签随机生成一系列二元组对, 每个元组
由一个基准图像、 一个正样 本和若干个负样本组成, 正样 本在同类标签中随机选取, 负样本
在每次迭代前, 先随机选取若干图像提取池化聚合特征作为负样本池, 然后与基准图像进
行匹配并排序, 每个元组在生成时从池中选取前n张与基准图像不同类的图像作为负样 本;
在提取特征阶段, 通过图像缩放提取图像的多尺度特征, 直接提取网络的输出, 并根据权重
值从大到小排序, 取前n个局部特征; 局部特征权重为注意力层输出 的权重值, 图像缩放尺
度为图像在输入网络时缩放的比例大小, 特征描述位置根据全卷积神经网络的感受野大小
取特征感受野中心的坐标位置作为特 征描述位置。
6.如权利要求1所述的一种基于深度 学习和街景图像的图像定位方法, 其特征在于: 步
骤5中, 每一张图像生成一个聚合特征, 聚合方法将一张图像的n ×d维的局部特征聚合为k
×d维的聚合特 征, 其中k 为聚类中心数; 具体实现方法如下:
步骤5.1, 随机选取一部分提取的图像特征, 设置聚类参数, 使用K均值聚类法生成k个
聚类中心并构建聚类码本, 记为C={c1,…,ck};
步骤5.2, 在聚合过程中, 将一张图像的n个局部特征分别分配到k个聚类中心, 对于每权 利 要 求 书 2/3 页
3
CN 114972506 A
3
专利 一种基于深度学习和街景图像的图像定位方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 09:47:42上传分享