专利 一种基于视频的行人重识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210541152.7 (22)申请日 2022.05.17 (71)申请人江苏东大金智信息系统有限公司地址 210000 江苏省南京市江宁开发区将军大道10 0号 (72)发明人马小骏　刘同舟　 (74)专利代理机构南京明杰知识产权代理事务所(普通合伙) 32464 专利代理师张文杰 (51)Int.Cl. G06V 40/10(2022.01) G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/74(2022.01) G06V 10/40(2022.01)G06N 3/04(2006.01) (54)发明名称一种基于视频的行人重识别方法 (57)摘要本发明公开了一种基于视频的行人重识别方法，本发明采用CNN提取图像序列帧中行人外形、外观等静态特征，采用CNN和 RNN相结合学习行人在时间轴上的步态、步频等运动特征，结合比较行人的静态和运动特征，有效提高了算法的识别能力和准确性；通过对行人关节点检测的结果判断图像中行人是否被遮挡或者是否受光照影响干扰，从而对不同的视频帧设置合适的权重，进而提升行人特征提取的鲁棒性；算法根据待查询视频以及候选视频的拍摄时间，选择合适的权重对行人静态特征和运动特征进行加权综合计算，从而使得重识别算法更鲁棒、准确性更高；解决了由于衣着、外观等变化影响行人重识别算法能力的问题。权利要求书3页说明书9页附图5页 CN 114973323 A 2022.08.30 CN 114973323 A 1.一种基于视频的行人重识别方法，其特征在于：包括以下步骤： S1、输入待查询query行人视频序列帧； S2、用现有网络openpose模型对每一帧的行人进行关键点检测，并根据检测结果对每一帧分别设置权重； S3、用预先训练好的卷积神经网络CNN对视频序列帧提取行人静态特征并进行加权计算，得出综合静态特征； S4、用预先训练好的卷积神经网络CNN以及循环卷积神经网络RNN对视频序列帧提取行人运动特征并进行加权计算，得出综合运动特征； S5、计算待查询query行人视频序列与候选gallery行人视频序列之间的综合静态特征的欧式距离Ds； S6、计算待查询query行人视频序列与候选gallery行人视频序列之间的综合运动特征的余弦距离Dm； S7、把Ds与Dm分别经过变换后再进行加权计算，得出综合距离，以此作为判断行人相似度的依据。 2.根据权利要求1所述的一种基于视频的行人重识别方法，其特征在于：在步骤S1中，输入待查询query行人视频序列以及一组候选gallery行人视频序列；待查询query行人视频序列为待检测的行人视频序列；候选gallery行人视频序列为已知的行人视频序列；每一个行人视频序列均有四个属性，分别为：视频标识V id，视频拍摄时间Vt，行人静态特征向量 Fs，行人运动特征Fm向量。 3.根据权利要求2所述的一种基于视频的行人重识别方法，其特征在于：在步骤S2中，对每一个视频帧，采用现有网络openpose模型提取18个行人关节点，对于行人静态特征而言，更多的应关注体型、外观等的区分，因此把所有关节点分为三个区域，分别为：头颈、上身躯干、下身，相邻区域有部分重叠，已增加检测鲁棒性，各区域的关节点个数分别为：头颈 8个，上身躯干9个，下身8个；对于行人重识别，三个区域的重要性按照上身躯干、下身、头颈依次降低，设置如下权重， Wb＝0.6， Wl＝0.3， Wh＝0.1，其中Wb、 Wl、 Wh分别表示三个区域上身躯干、下身、头颈的权重；根据关节点的检测结果为各区域打分，设置规则如下：根据关节点检测结果给身体各区域的权重赋值规则： Jn为检测到的关节点个数；上身躯干：理想权重为0.6；当Jn≥7时，得分为1；当4≤Jn<7时，得分为0.5；当Jn<4时，得分为0；下身：理想权重为0.3；当Jn≥6时，得分为1；当4≤Jn<6时，得分为0.5；当Jn<4时，得分为0；头颈：理想权重为0.1；当Jn≥7时，得分为1；当5≤Jn<7时，得分为0.5；当Jn<5时，得分为0；实际权重＝理想权重*得分；身体各部分的实际权重为该部分的理想权重与该部分得分的乘积；在权重被应用前对其进行归一化处理，归一化处理见公式(1)：权　利　要　求　书 1/3 页 2 CN 114973323 A 2公式(1)给出了对于一个共有n 帧的视频序列，其第i 帧的归一化权重 wi为第i帧根据表1计算得到的实际权重。 4.根据权利要求3所述的一种基于视频的行人重识别方法，其特征在于：在步骤S3中，利用卷积神经网络 CNN对视频序列的各帧分别提取行人静态特征；把视频序列的每帧RGB三通道作为输入，采用ResNet18神经网络架构对每一帧提取行人特征；残差网络ResNet18的搭建基于开源深度学习框架PyTorch，网络结构分为三个部分： 1)输入部分：是一个尺寸为7x7，步长为2的大卷积核，以及一个尺寸为3x3，步长为2的最大池化组成； 2)中间的卷积部分：由4个块block1、 block2、 block3、 block4组成，每个block通过3*3 卷积的堆叠2次来实现信息的提取； 3)输出部分：通过全局自适应平滑池化，把所有的特征图拉成1*1，然后接全连接层输出；其次，在获取视频序列每帧的行人特征向量后，利用步骤S2中计算所得的归一化权重对它们进行加权计算，见公式(2)，形成视频级的行人静态特征向量Fs；特征向量Fs反映了整个视频序列中行人的外形、外观等总体静态特征；公式(2)中为第i帧的行人静态特征向量， N 为该视频序列的总帧数。 5.根据权利要求4所述的一种基于视频的行人重识别方法，其特征在于：在步骤S4中，利用卷积神经网络 CNN以及循环神经网络RN N对视频序列的各帧分别提取行人运动特征；把视频序列的每帧图像以及光流合计五通道的信息作为输入；采用Resnet18神经网络架构提取图像特征向量，然后把每帧产生的特征向量输入循环神经网络RNN，通过CNN和RNN 模型输出行人运动特征，获得行人运动特征向量；采用RNN的改良版门控循环单元GRU网络结构；步骤S2所得到的各帧权重被应用了两次，分别位于CNN和RNN之后，并最终计算得出融合的运动特征向量Fm，见公式(3)，作为视频级的运动特征向量；公式(3)中为第i帧的行人运动特征向量， N 为该视频序列的总帧数。 6.根据权利要求5所述的一种基于视频的行人重识别方法，其特征在于：所述五通道为：视频标识Vid，视频拍摄时间V t，行人静态特征向量Fs，行人运动特征Fm向量和光流。 7.根据权利要求6所述的一种基于视频的行人重识别方法，其特征在于：在步骤S5中，把步骤S3获得的query行人视频静态特征向量与gallery行人视频静态特征向量作为输入，计算两者之间的欧式距离；计算公式如(4)所示：权　利　要　求　书 2/3 页 3 CN 114973323 A 3

专利 一种基于视频的行人重识别方法

专利一种基于视频的行人重识别方法