(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211157690.2 (22)申请日 2022.09.22 (71)申请人 华北电力大 学扬中智能电气研究中 心 地址 212200 江苏省镇江市扬中市新坝镇 新园路1号 (72)发明人 周亚磊 刘鹏 刘春光 刘懿莹  韩茂岳 曹骁凡  (74)专利代理 机构 北京华清迪源知识产权代理 有限公司 1 1577 专利代理师 胡乐 (51)Int.Cl. G06V 20/52(2022.01) G06V 20/40(2022.01) G06V 10/62(2022.01)G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01) (54)发明名称 一种集成多头自注意力和卷积的行人重识 别方法和装置 (57)摘要 本发明公开了一种集成多头自注意力和卷 积的行人重识别方法和装置。 其中, 提出的双层 多头自注意力(DL ‑MHSA)把特征矩阵用网格划 分, 并把MHSA分解成两层, 第一层只计算单个网 格内特征, 第二层再在网格基础上计算整体特 征, 两步操作降低了计算复杂 度; 在OSNet中引入 DL‑MHSA, 实现融合不同尺度的特征和全局特征, 使得模型对输入图片可以得到更具辨识性的特 征, 提升了行人重识别性能; 并通过使用大规模 无标签行人数据集对模型进行预训练, 使得模型 获得有利于任务的高级语义, 提升了随后 在有标 签数据集调优训练的性能, 使模 型的泛化能力更 强。 权利要求书2页 说明书7页 附图2页 CN 115457475 A 2022.12.09 CN 115457475 A 1.一种集成多头自注意力和卷积的行 人重识别方法, 其特 征在于, 包括: 获取待测监控视频图像数据; 将所述待测监控视频图像数据输入已完成训练的DM ‑OSNet模型; 所述DM ‑OSNet模型为 基于OSNet的多尺度特征动态融合的双层多头自注意力神经网络, 其中, 双层 多头自注 意力 (DL‑MHSA)将输入的特征矩阵用设定尺 寸的网格划分, 先只计算单个网格区域内特征, 再以 网格作为单元计算整体特征, 以降低计算复杂度; 再将双层 多头自注 意力(DL‑MHSA)集成到 OSNet的瓶颈中, 使OSNet中感知局部感受野的卷积流替换为提取有关特征的全局信息的自 注意力流, 以捕获远程依赖关系和全局信息; 根据所述DM ‑OSNet模型的运 算结果, 输出 行人重识别结果。 2.根据权利要求1所述的集成多头自注意力和卷积的行人重识别方法, 其特征在于, 所 述DM‑OSNet模型的训练过程是: 是先使用大规模无标签行人数据集对模型进行预训练, 使 得模型获得有利于任务的高级语义, 再在有标签数据集上进行调优训练。 3.根据权利要求2所述的集成多头自注意力和卷积的行人重识别方法, 其特征在于, 所 述大规模无 标签行人数据集为LUPerson。 4.根据权利要求1所述的集成多头自注意力和卷积的行人重识别方法, 其特征在于, 所 述双层多头自注意力(DL ‑MHSA)的计算过程包括: 首先在第一层将输入特征 图X用G×G大小的网格分开; 通过投影输入X, 得到Qi、 Ki和Vi 为: H、 W和C分别为X的高度、 宽度和特征维度, Q为查询条件, K为关键字, V为值, Q、 K、 V和后 续处理的每一部分代表一个头, Qi、 Ki和Vi分别表示第i个头的查询条件、 关键字和值; Headi 为每个头部的自注意力; 计算每个头部时, 第一层的特 征映射为: attention1=F(head0,head1,..headk)+X 上式中, F(.)代 表在多个头 输入上的连接操作; 在第二层将attention1映射到Qi、 Ki和Vi, 但仅通过使用平均池化来对K和V进行下采样, 如下面的公式所示: 权 利 要 求 书 1/2 页 2 CN 115457475 A 2得到最终的注意力为: attention2=F(head0,head1,..headk)+attention1。 5.根据权利要求4所述的集成多头自注意力和卷积的行人重识别方法, 其特征在于, 所 述将双层 多头自注意力(DL ‑MHSA)集成到OSNet的瓶颈中的计算过程, 其中假设瓶颈块的输 入特征图是x, 瓶颈的残差是 则: 其中Ft表示卷积流, 其感受野 为(2t+1) ×(2t+1), G表示统一聚合门对特征的处理, ⊙表 示哈达玛积, H(x)表示双 层多头自注意力。 6.一种集成多头自注意力和卷积的行 人重识别装置, 其特 征在于, 包括以下程序模块: 图像数据获取模块, 用于获取待测监控视频图像数据; AI运算模块, 用于将所述待测监控视频图像数据输入已完成训练的DM ‑OSNet模型进行 运算; 所述DM ‑OSNet模型为基于OSNet的多尺度特征动态 融合的双层多头自注意力神经网 络, 其中, 双层多头自注意力(DL ‑MHSA)将输入的特征矩阵用设定尺寸的网格划分, 先只计 算单个网格区域内特征, 再以网格作为单元计算整体特征, 以降低计算复杂度; 再将双层多 头自注意力(DL ‑MHSA)集成到OSNet的瓶颈中, 使OSNet中感知局部感受野的卷积流替换为 提取有关特 征的全局信息的自注意力流, 以捕获远程依赖关系和全局信息; 结果输出模块, 用于根据所述DM ‑OSNet模型的运 算结果, 输出 行人重识别结果。 7.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至 5中任一项所述方法的步骤。 8.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被 处理器执行时实现权利要求1至 5中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115457475 A 3

PDF文档 专利 一种集成多头自注意力和卷积的行人重识别方法和装置

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种集成多头自注意力和卷积的行人重识别方法和装置 第 1 页 专利 一种集成多头自注意力和卷积的行人重识别方法和装置 第 2 页 专利 一种集成多头自注意力和卷积的行人重识别方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:50上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。