专利 一种基于深度学习的视频跟踪与图像识别方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210999771.0 (22)申请日 2022.08.19 (71)申请人武汉学院地址 430212 湖北省武汉市江夏区黄家湖大道333号 (72)发明人龚鸣敏　 (74)专利代理机构成都鱼爪智云知识产权代理有限公司 513 08 专利代理师郑发志 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/74(2022.01) G06V 40/16(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于深度学习的视频跟踪与图像识别方法及系统 (57)摘要本发明公开了一种基于深度学习的视频跟踪与图像识别方法及系统，涉及视频跟踪及图像识别技术领域，该方法包括初始化卷积神经网络参数；获取训练集并对训练集进行规整化；将三元组送入卷积神经网络进行处理；卷积神经网络输出训练集图像之间的相似度；将待识别的目标三维图像和与之相似度最高的图像同时送入到深度神经网络进行处理；深度神经网络最终输出两个三维模型的三维特征向量；计算两个三维特征向量的切比雪夫的距离；将计算出的切比雪夫距离和预设的阈值相比较，大于阈值则视为不同的人。本发明对不在库中的对象有着相当可靠的判断力，并且由于可以在一定范围内调节光照条件，人脸姿势与面部表情，对目标采集的要求降低，精度大大提高。权利要求书2页说明书7页附图4页 CN 115393762 A 2022.11.25 CN 115393762 A 1.一种基于深度学习的视频跟踪与图像识别方法，其特征在于，包括：初始化卷积神经网络参数；获取训练集并对训练集进行规整化得到三元组；将三元组送入卷积神经网络进行处理；卷积神经网络输出训练集图像之间的相似度；将人脸的平面图像转为三维图像，将待识别的目标三维图像和与之相似度最高的图像同时送入到深度神经网络进行处理；深度神经网络最终输出两个三维模型的三维特征向量；计算两个三维特征向量的切比雪夫的距离；将计算出的切比雪夫距离和预设的阈值相比较，大于阈值则视为不同的人。 2.根据权利要求1所述的一种基于深度学习的视频跟踪与图像识别方法，其特征在于，所述初始化卷积神经网络参数的步骤包括：设置学习率learning_rate、卷积神经元网络层数layer和每层的卷积核大小及个数；将训练样本分批输入，每批训练样本个数记为batchsize，设置正则指数L2_penalty、最大训练代数maxstep、每代包含的批次数step_size、图像的大小image_size、每个批次的人数 people_per_batc h和每个人多少张图片ima ges_per_perso n。 3.根据权利要求2所述的一种基于深度学习的视频跟踪与图像识别方法，其特征在于，所述学习率lear ning_rate＝0.1，卷积神经元网络层数和每层的卷积核大小和个数可以直接调用inception_resnet _v1模块，训练样本分批输入，每批训练样本个数记为bat ch_size ＝45，正则指数L2 _penalty＝1e ‑4，最大训练代数maxstep＝2 000，每代的批次数step_siz e ＝2000，图像的大小image_size＝160，每个批次的人数people_per_batch＝45，每个人多少张图片ima ges_per_perso n＝40。 4.根据权利要求1所述的一种基于深度学习的视频跟踪与图像识别方法，其特征在于，所述获取训练集并对训练集进行规整化得到三元组的步骤包括：将训练集数据组成三元组，组成三元组方式包括从训练集中选取三张图像，两张来自同一人不同状态的人脸照片，一张来自另一人，这三张图片组成一个三元组，将训练集全部组成三元组集合；对三元组集合中的图片进行随机剪裁，设置大小和随机反转的预处理。 5.根据权利要求1所述的一种基于深度学习的视频跟踪与图像识别方法，其特征在于，所述将三元组送入卷积神经网络进行处理的步骤包括：卷积神经网络将下式作为损失函数；是同一人不同状态人脸图像的特征表达，是另一人人脸图像的特征表达，这里距离用欧式距离度量， +表示[ ]内的值大于零的时候，取该值为损失，小于零的时候，损失为零，并且要让与之间的距离和与之间的距离之间有一个最小的间隔a；使用Adagrad算法的Optimizer自适应梯度调节器，使损失函数达到最小。权　利　要　求　书 1/2 页 2 CN 115393762 A 26.根据权利要求1所述的一种基于深度学习的视频跟踪与图像识别方法，其特征在于，所述将待识别的目标三维图像和与之相似度最高的图像同时送入到深度神经网络进行处理的步骤包括：对输入进来的两张图像采集人脸特征点；将脸部基本形状模型，脸部基本表情模型和非刚性最近点迭代三维人脸数据配准算法构成一种深度神经网络，该神经网络分别建立两张人脸图像的三维形变模型；使用弱透视投影将人脸模型投影到图像平面上，最小化投影图与输入图像的距离；使用Landmark Marching的方法以避免平面人脸图像姿势的改变造成三维形变模型上的偏差；将两张图像的三维形变模型进行3D网格划分和归一化处理并调整模型的锚点；进行面部趋势拟合，计算两个模型下的平均光照度，获取最终的面部趋势和面部细节并用于完善最终对比的模型。 7.一种基于深度学习的视频跟踪与图像识别系统，其特征在于，包括：初始化模块，用于初始化卷积神经网络参数；规整化模块，用于获取训练集并对训练集进行规整化得到三元组；第一处理模块，用于将三元组送入卷积神经网络进行处理；输出相似度模块，用于卷积神经网络输出训练集图像之间的相似度；第二处理模块，用于将人脸的平面图像转为三维图像，将待识别的目标三维图像和与之相似度最高的图像同时送入到深度神经网络进行处理；最终输出模块，用于深度神经网络最终输出两个三维模型的三维特征向量；计算距离模块，用于计算两个三维特征向量的切比雪夫的距离；比较模块，用于将计算出的切比雪夫距离和预设的阈值相比较，大于阈值则视为不同的人。 8.根据权利要求7所述的一种基于深度学习的视频跟踪与图像识别系统，其特征在于，规整化模块包括：组成三元组子模块，将训练集数据组成三元组，组成三元组方式包括从训练集中选取三张图像，两张来自同一人不同状态的人脸照片，一张来自另一人，这三张图片组成一个三元组，将训练集全部组成三元组集合；预处理子模块，对三元组集合中的图片进行随机剪裁，设置大小和随机反转的预处理。 9.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器和数据总线；其中：所述处理器与所述存储器通过所述数据总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令以执行如权利要求1至6任一所述的方法。 10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行如权利要求1至 6任一所述的方法。权　利　要　求　书 2/2 页 3 CN 115393762 A 3

专利 一种基于深度学习的视频跟踪与图像识别方法及系统

专利一种基于深度学习的视频跟踪与图像识别方法及系统