专利 一种基于对比语言图像预训练模型CLIP的行人重识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211173432.3 (22)申请日 2022.09.26 (71)申请人华东师范大学地址 200241 上海市闵行区东川路5 00号 (72)发明人孙力　李思源　 (74)专利代理机构上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师徐筱梅　张翔 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) G06T 9/00(2006.01) G06F 40/126(2020.01) (54)发明名称一种基于对比语言图像预训练模型CLIP的行人重识别方法 (57)摘要本发明公开了一种基于对比语言图像预训练模型CLIP的行人重识别方法，对以CNN或 Transformer作为主干网络的图像编码器进行训练：固定文本编码器和图像编码器的参数，为每个身份设定含可学习参数的描述文本，将图像和对应描述文本送入图像编码器和文本编码器；计算文本到图像和图像到文本的对比损失函数，训练描述文本中可学习参数；固定文本编码器和描述文本，生成并保存每个身份的文本特征，将图像送入图像编码器；计算图像到文本的交叉熵损失函数，训练图像编码器；通过图像编码器得到用于行人重识别的特征。本发明与现有技术相比，将语言图像预训练模型应用到重识别任务中，方法简单，解决了过程中行人重识别任务缺乏文本标签描述的问题，提高了准确率。权利要求书2页说明书4页附图1页 CN 115393902 A 2022.11.25 CN 115393902 A 1.一种基于对比语言图像预训练模型CLIP的行人重识别方法，是利用以Transformer 作为主干网络的文本编码器对以CNN 或Transformer作为主干网络的图像编码器进行训练，并利用所述图像编码器生成图像特征进行行人重识别，其特征在于，该方法包括以下具体步骤：步骤1：对于具有数千个身份的MSMT17数据集，在训练阶段为其训练集中的每个身份设定一组含有可学习参数的描述文本，描述文本的模板为a photo of a[X]1[X]2[X]3...[X]M person，其中[X]m(m∈1,...M)为对应的可学习的词符to ken参数；步骤2：固定图像编码器和文本编码器的参数，将图像和对应的描述文本送入图像编码器和文本编码器；步骤3：计算图像到文本和文本到图像的对比损失函数Li2t和Lt2i，以训练描述文本中的可学习参数，对应公式如下； s(Vi,Ti)＝Vi·Ti＝gI(imgi)·gT(texti) (a) 其中imgi为第i张图像经过图像编码器输出的分类标记[CLS]token，而texti表示对应描述文本经过文本编码器的输出标记[EOS]token， gI和gT为将[CLS]token和[EOS]token映射到同一空间的线性层，最终得到图像特征Vi和文本特征Ti， s(Vi,Ti)是图像特征Vi和文本特征Ti的相似度； B为当前批次所含的图像数， a为当前批次中的索引， yi是第i张图的身份标签， P(yi)代表着同一批次中属于 yi这个身份的所有图像的索引集合， |P(yi)|表示这个集合所含的图像数；步骤3：固定文本编码器和描述文本，生成并保存每个身份的文本特征，将图像送入图像编码器；步骤4：计算图像到文本的交叉熵损失函数，训练图像编码器； qk＝(1‑∈)δk,y+∈/N (e) 其中N为数据集的训练集所含的身份数目， k为数据集中所有身份的索引， qk为平缓标签，表示当前图片属于第k个身份的期望概率，其中δk,y为冲激函数，在k＝y的时候为 1，其余时候为0，而∈为控制平缓程度的参数；步骤5：在测试阶段将测试集图像送入训好的图像编码器得到对应的图像特征，进行行人重识别：对于测试集的query里的每一张图，在gallery中找到最相似的其他摄像头下的图，并计算mAP和Ran k‑1指标。 2.根据权利要求1所述的行人重识别方法，其特征在于，所述利用以Transformer作为主干网络的文本编码器训练以CNN 或Transformer作为主干网络的图像编码器，图像编码器的主干网络具体选择：以CNN网络的ResNet ‑50或Transformer网络的ViT ‑B/16，文本编码器所使用的主干网络为8层的Transformer网络。权　利　要　求　书 1/2 页 2 CN 115393902 A 23.根据权利要求1所述的行人重识别方法，其特征在于，所述含有可学习参数的描述文本，不同身份之间的可学习参数不共享；描述文本作为每个身份的模糊描述，以补充重识别任务中不含的文本描述。权　利　要　求　书 2/2 页 3 CN 115393902 A 3

专利 一种基于对比语言图像预训练模型CLIP的行人重识别方法

专利一种基于对比语言图像预训练模型CLIP的行人重识别方法