(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211157690.2
(22)申请日 2022.09.22
(71)申请人 华北电力大 学扬中智能电气研究中
心
地址 212200 江苏省镇江市扬中市新坝镇
新园路1号
(72)发明人 周亚磊 刘鹏 刘春光 刘懿莹
韩茂岳 曹骁凡
(74)专利代理 机构 北京华清迪源知识产权代理
有限公司 1 1577
专利代理师 胡乐
(51)Int.Cl.
G06V 20/52(2022.01)
G06V 20/40(2022.01)
G06V 10/62(2022.01)G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06V 10/774(2022.01)
(54)发明名称
一种集成多头自注意力和卷积的行人重识
别方法和装置
(57)摘要
本发明公开了一种集成多头自注意力和卷
积的行人重识别方法和装置。 其中, 提出的双层
多头自注意力(DL ‑MHSA)把特征矩阵用网格划
分, 并把MHSA分解成两层, 第一层只计算单个网
格内特征, 第二层再在网格基础上计算整体特
征, 两步操作降低了计算复杂 度; 在OSNet中引入
DL‑MHSA, 实现融合不同尺度的特征和全局特征,
使得模型对输入图片可以得到更具辨识性的特
征, 提升了行人重识别性能; 并通过使用大规模
无标签行人数据集对模型进行预训练, 使得模型
获得有利于任务的高级语义, 提升了随后 在有标
签数据集调优训练的性能, 使模 型的泛化能力更
强。
权利要求书2页 说明书7页 附图2页
CN 115457475 A
2022.12.09
CN 115457475 A
1.一种集成多头自注意力和卷积的行 人重识别方法, 其特 征在于, 包括:
获取待测监控视频图像数据;
将所述待测监控视频图像数据输入已完成训练的DM ‑OSNet模型; 所述DM ‑OSNet模型为
基于OSNet的多尺度特征动态融合的双层多头自注意力神经网络, 其中, 双层 多头自注 意力
(DL‑MHSA)将输入的特征矩阵用设定尺 寸的网格划分, 先只计算单个网格区域内特征, 再以
网格作为单元计算整体特征, 以降低计算复杂度; 再将双层 多头自注 意力(DL‑MHSA)集成到
OSNet的瓶颈中, 使OSNet中感知局部感受野的卷积流替换为提取有关特征的全局信息的自
注意力流, 以捕获远程依赖关系和全局信息;
根据所述DM ‑OSNet模型的运 算结果, 输出 行人重识别结果。
2.根据权利要求1所述的集成多头自注意力和卷积的行人重识别方法, 其特征在于, 所
述DM‑OSNet模型的训练过程是: 是先使用大规模无标签行人数据集对模型进行预训练, 使
得模型获得有利于任务的高级语义, 再在有标签数据集上进行调优训练。
3.根据权利要求2所述的集成多头自注意力和卷积的行人重识别方法, 其特征在于, 所
述大规模无 标签行人数据集为LUPerson。
4.根据权利要求1所述的集成多头自注意力和卷积的行人重识别方法, 其特征在于, 所
述双层多头自注意力(DL ‑MHSA)的计算过程包括:
首先在第一层将输入特征 图X用G×G大小的网格分开; 通过投影输入X, 得到Qi、 Ki和Vi
为:
H、 W和C分别为X的高度、 宽度和特征维度, Q为查询条件, K为关键字, V为值, Q、 K、 V和后
续处理的每一部分代表一个头, Qi、 Ki和Vi分别表示第i个头的查询条件、 关键字和值; Headi
为每个头部的自注意力;
计算每个头部时, 第一层的特 征映射为:
attention1=F(head0,head1,..headk)+X
上式中, F(.)代 表在多个头 输入上的连接操作;
在第二层将attention1映射到Qi、 Ki和Vi, 但仅通过使用平均池化来对K和V进行下采样,
如下面的公式所示:
权 利 要 求 书 1/2 页
2
CN 115457475 A
2得到最终的注意力为:
attention2=F(head0,head1,..headk)+attention1。
5.根据权利要求4所述的集成多头自注意力和卷积的行人重识别方法, 其特征在于, 所
述将双层 多头自注意力(DL ‑MHSA)集成到OSNet的瓶颈中的计算过程, 其中假设瓶颈块的输
入特征图是x, 瓶颈的残差是
则:
其中Ft表示卷积流, 其感受野 为(2t+1) ×(2t+1), G表示统一聚合门对特征的处理, ⊙表
示哈达玛积, H(x)表示双 层多头自注意力。
6.一种集成多头自注意力和卷积的行 人重识别装置, 其特 征在于, 包括以下程序模块:
图像数据获取模块, 用于获取待测监控视频图像数据;
AI运算模块, 用于将所述待测监控视频图像数据输入已完成训练的DM ‑OSNet模型进行
运算; 所述DM ‑OSNet模型为基于OSNet的多尺度特征动态 融合的双层多头自注意力神经网
络, 其中, 双层多头自注意力(DL ‑MHSA)将输入的特征矩阵用设定尺寸的网格划分, 先只计
算单个网格区域内特征, 再以网格作为单元计算整体特征, 以降低计算复杂度; 再将双层多
头自注意力(DL ‑MHSA)集成到OSNet的瓶颈中, 使OSNet中感知局部感受野的卷积流替换为
提取有关特 征的全局信息的自注意力流, 以捕获远程依赖关系和全局信息;
结果输出模块, 用于根据所述DM ‑OSNet模型的运 算结果, 输出 行人重识别结果。
7.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在
于, 所述处 理器执行所述计算机程序时实现权利要求1至 5中任一项所述方法的步骤。
8.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被
处理器执行时实现权利要求1至 5中任一项所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 115457475 A
3
专利 一种集成多头自注意力和卷积的行人重识别方法和装置
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:58:50上传分享