(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211173432.3
(22)申请日 2022.09.26
(71)申请人 华东师范大学
地址 200241 上海市闵行区东川路5 00号
(72)发明人 孙力 李思源
(74)专利代理 机构 上海蓝迪专利商标事务所
(普通合伙) 31215
专利代理师 徐筱梅 张翔
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 10/82(2022.01)
G06V 10/774(2022.01)
G06T 9/00(2006.01)
G06F 40/126(2020.01)
(54)发明名称
一种基于对比语言图像预训练模型CLIP的
行人重识别方法
(57)摘要
本发明公开了一种基于对比语言图像预训
练模型CLIP的行人重识别方法, 对以CNN或
Transformer作为主干网络的 图像编码器进行训
练: 固定文本编码器和图像编码器的参数, 为每
个身份设定含 可学习参数的描述文本, 将图像和
对应描述文本送入图像编码器和文本编码器; 计
算文本到图像和图像到文本的对比损失函数, 训
练描述文本中可学习参数; 固定文本编码器和描
述文本, 生成并保存每个身份的文本特征, 将图
像送入图像编码器; 计算图像到文本的交叉熵损
失函数, 训练图像编码器; 通过图像编码器得到
用于行人重识别的特征。 本发明与现有技术相
比, 将语言图像预训练模型应用到重识别任务
中, 方法简单, 解决了过程中行人重识别任务缺
乏文本标签描述的问题, 提高了准确率。
权利要求书2页 说明书4页 附图1页
CN 115393902 A
2022.11.25
CN 115393902 A
1.一种基于对比语言图像预训练模型CLIP的行人重识别方法, 是利用以Transformer
作为主干网络的文本编码 器对以CNN 或Transformer作为主干网络的图像编码器进行训练,
并利用所述图像编码器生成图像特征进行行人重识别, 其特征在于, 该方法包括以下具体
步骤:
步骤1: 对于具有数千个身份的MSMT17数据集, 在训练阶段为其训练集中的每个身份设
定一组含有可学习参数的描述文本, 描述文本的模板为a photo of a[X]1[X]2[X]3...[X]M
person, 其中[X]m(m∈1,...M)为对应的可 学习的词符to ken参数;
步骤2: 固定图像编码器和文本编码器的参数, 将图像和对应的描述文本送入图像编码
器和文本编码器;
步骤3: 计算图像到文本和文本到图像的对比损失函数Li2t和Lt2i, 以训练描述文本中的
可学习参数, 对应公式如下;
s(Vi,Ti)=Vi·Ti=gI(imgi)·gT(texti) (a)
其中imgi为第i张图像经过图像编码器输出的分类标记[CLS]token, 而texti表示对应
描述文本经过文本编码器的输出标记[EOS]token, gI和gT为将[CLS]token和[EOS]token映
射到同一空间的线性层, 最终得到图像特征Vi和文本特征Ti, s(Vi,Ti)是图像特征Vi和文本
特征Ti的相似度; B为当前批次所含的图像数, a为当前批次中的索引, yi是第i张图的身份标
签, P(yi)代表着同一批次中属于 yi这个身份的所有图像的索引集合, |P(yi)|表示这个集合
所含的图像数;
步骤3: 固定文本编码器和描述文本, 生成并保存每个身份的文本特征, 将图像送入图
像编码器;
步骤4: 计算图像到文本的交叉熵损失函数, 训练图像编码器;
qk=(1‑∈)δk,y+∈/N (e)
其中N为数据集的训练集所含的身份数目, k为数据集中所有身份的索引, qk为平缓标
签, 表示当前图片属于第k个身份的期望概率, 其中δk,y为冲激函数, 在k=y的时候为 1, 其余
时候为0, 而∈为控制平缓程度的参数;
步骤5: 在测试阶段将测试集图像送入训好的图像编码器得到对应的图像特征, 进行行
人重识别: 对于测试集的query里的每一张图, 在gallery中找到最相似的其他摄像头下的
图, 并计算mAP和Ran k‑1指标。
2.根据权利要求1所述的行人重识别方法, 其特征在于, 所述利用以Transformer作为
主干网络的文本编码 器训练以CNN 或Transformer作为主干网络的图像编码器, 图像编码器
的主干网络具体选择: 以CNN网络的ResNet ‑50或Transformer网络的ViT ‑B/16, 文本编码器
所使用的主干网络为8层的Transformer网络 。权 利 要 求 书 1/2 页
2
CN 115393902 A
23.根据权利要求1所述的行人重识别方法, 其特征在于, 所述含有可学习参数的描述文
本, 不同身份之 间的可学习参数不共享; 描述文本作为每个身份的模糊描述, 以补充重识别
任务中不含的文本描述。权 利 要 求 书 2/2 页
3
CN 115393902 A
3
专利 一种基于对比语言图像预训练模型CLIP的行人重识别方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:58:47上传分享