(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210999771.0
(22)申请日 2022.08.19
(71)申请人 武汉学院
地址 430212 湖北省武汉市江夏区黄家湖
大道333号
(72)发明人 龚鸣敏
(74)专利代理 机构 成都鱼爪智云知识产权代理
有限公司 513 08
专利代理师 郑发志
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/82(2022.01)
G06V 10/74(2022.01)
G06V 40/16(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于深度学习的视频跟踪与图像识别
方法及系统
(57)摘要
本发明公开了一种基于深度学习的视频跟
踪与图像识别方法及系统, 涉及视频跟踪及图像
识别技术领域, 该方法包括初始化卷积神经网络
参数; 获取训练集并对训练集进行规整化; 将三
元组送入卷积神经网络进行处理; 卷积神经网络
输出训练集图像 之间的相似度; 将待识别的目标
三维图像和与之相似度最高的图像同时送入到
深度神经网络进行处理; 深度神经网络最终输出
两个三维模 型的三维特征向量; 计算两个三维特
征向量的切比雪夫的距离; 将计算出的切比雪夫
距离和预设的阈值相比较, 大于阈值则视为不同
的人。 本发 明对不在库中的对象有着相当可靠的
判断力, 并且由于可以在一定范围内调节光照条
件, 人脸姿势与面部表情, 对目标采集的要求降
低, 精度大 大提高。
权利要求书2页 说明书7页 附图4页
CN 115393762 A
2022.11.25
CN 115393762 A
1.一种基于深度学习的视频跟踪与图像识别方法, 其特 征在于, 包括:
初始化卷积神经网络参数;
获取训练集并对训练集进行规整化得到三元组;
将三元组送入卷积神经网络进行处 理;
卷积神经网络 输出训练集图像之间的相似度;
将人脸的平面图像转为三维图像, 将待识别的目标三维图像和与之相似度最高的图像
同时送入到深度神经网络进行处 理;
深度神经网络最终输出两个三维模型的三维特 征向量;
计算两个三维特 征向量的切比雪夫的距离;
将计算出的切比雪夫距离和预设的阈值相比较, 大于阈值则视为 不同的人。
2.根据权利要求1所述的一种基于深度 学习的视频跟踪与图像识别方法, 其特征在于,
所述初始化卷积神经网络参数的步骤 包括:
设置学习率learning_rate、 卷积神经元网络层数layer和每层的卷积核大小及个数;
将训练样本分批输入, 每批训练样本个数记为batchsize, 设置正则指数L2_penalty、 最大
训练代数maxstep、 每代包含的批次数step_size、 图像的大小image_size、 每个批次的人数
people_per_batc h和每个人多少张图片ima ges_per_perso n。
3.根据权利要求2所述的一种基于深度 学习的视频跟踪与图像识别方法, 其特征在于,
所述学习率lear ning_rate=0.1, 卷积神经元网络层数和每层的卷积核大小和个数可以直
接调用inception_resnet _v1模块, 训练样本分批输入, 每批训练样本个数记为bat ch_size
=45, 正则指数L2 _penalty=1e ‑4, 最大训练代数maxstep=2 000, 每代的批次数step_siz e
=2000, 图像的大小image_size=160, 每个批次的人数people_per_batch=45, 每个人多
少张图片ima ges_per_perso n=40。
4.根据权利要求1所述的一种基于深度 学习的视频跟踪与图像识别方法, 其特征在于,
所述获取训练集并对训练集进行规整化得到三元组的步骤 包括:
将训练集数据组成三元组, 组成三元组方式包括从训练集中选取三张图像, 两张来自
同一人不同状态的人脸照 片, 一张来自另一人, 这三张图片组成一个三元组, 将训练集全部
组成三元组集 合;
对三元组集 合中的图片进行随机 剪裁, 设置大小和随机反转的预处 理。
5.根据权利要求1所述的一种基于深度 学习的视频跟踪与图像识别方法, 其特征在于,
所述将三元组送入卷积神经网络进行处 理的步骤 包括:
卷积神经网络将下式作为损失函数;
是同一人不同状态人脸图像的特征表达,
是另一人人脸图像的特
征表达, 这里距离用欧式距离度量, +表示[ ]内的值大于零的时候, 取该值为损失, 小于零
的时候, 损失为零, 并且要让
与
之间的距离和
与
之间的距离之间有一个最小的间
隔a;
使用Adagrad算法的Optimizer自适应梯度调节器, 使损失函数达 到最小。权 利 要 求 书 1/2 页
2
CN 115393762 A
26.根据权利要求1所述的一种基于深度 学习的视频跟踪与图像识别方法, 其特征在于,
所述将待识别的目标三维图像和与之相似度最高的图像同时送入到深度神经网络进行处
理的步骤 包括:
对输入进来的两张图像采集人脸特 征点;
将脸部基本形状模型, 脸部基本表情模型和非刚性最近点迭代三维人脸数据配准算法
构成一种深度神经网络, 该神经网络分别建立两张人脸图像的三维形变模型;
使用弱透 视投影将人脸模型投影到图像平面上, 最小化投影图与输入图像的距离;
使用Landmark Marching的方法以避免平面人脸图像姿势的改变造成三维形变模型上
的偏差;
将两张图像的三维形变模型进行3D网格划分和归一 化处理并调整模型的锚点;
进行面部趋势拟合, 计算两个模型下的平均光照度, 获取最终的面部趋势和面部细节
并用于完善最终对比的模型。
7.一种基于深度学习的视频跟踪与图像识别系统, 其特 征在于, 包括:
初始化模块, 用于初始化卷积神经网络参数;
规整化模块, 用于获取训练集并对训练集进行规整化得到三元组;
第一处理模块, 用于将三元组送入卷积神经网络进行处 理;
输出相似度模块, 用于卷积神经网络 输出训练集图像之间的相似度;
第二处理模块, 用于将人脸的平面图像转为三维图像, 将待识别的目标三维图像和与
之相似度最高的图像同时送入到深度神经网络进行处 理;
最终输出模块, 用于深度神经网络最终输出两个三维模型的三维特 征向量;
计算距离模块, 用于计算两个三维特 征向量的切比雪夫的距离;
比较模块, 用于将计算出的切比雪夫距离和预设的阈值相比较, 大于阈值则视为不同
的人。
8.根据权利要求7所述的一种基于深度 学习的视频跟踪与图像识别系统, 其特征在于,
规整化模块包括:
组成三元组子模块, 将训练集数据组成三元组, 组成三元组方式包括从训练集中选取
三张图像, 两张来自同一人不同状态的人脸照片, 一张来自另一人, 这三张图片组成一个三
元组, 将训练集全部组成三元组集 合;
预处理子模块, 对三元组集 合中的图片进行随机 剪裁, 设置大小和随机反转的预处 理。
9.一种电子设备, 其特 征在于, 包括:
至少一个处 理器、 至少一个存 储器和数据总线; 其中:
所述处理器与 所述存储器通过所述数据总 线完成相互间的通信; 所述存储器存储有可
被所述处理器执行的程序指 令, 所述处理器调用所述程序指 令以执行如权利要求1至6任一
所述的方法。
10.一种非暂态计算机可读存储介质, 其特征在于, 所述非暂态计算机可读存储介质存
储计算机程序, 所述计算机程序使所述计算机执 行如权利要求1至 6任一所述的方法。权 利 要 求 书 2/2 页
3
CN 115393762 A
3
专利 一种基于深度学习的视频跟踪与图像识别方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:34上传分享