(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210724589.4
(22)申请日 2022.06.23
(71)申请人 浙江工商大 学
地址 310018 浙江省杭州市下沙高教园区
学正街18号
(72)发明人 董建锋 孙圣凯 陈书界 王勋
刘宝龙 蔡佳航 杨文武
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 刘静
(51)Int.Cl.
G06V 10/774(2022.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)
G06V 40/20(2022.01)G06N 3/04(2006.01)
(54)发明名称
一种基于层级多视角的自监督动作识别方
法及装置
(57)摘要
本发明公开了一种基于层级多视角的自监
督动作识别方法及装置, 该方法包括: 先是对比
学习的预训练阶段, 原始数据通过数据增强和重
组分别通过key编码器和query编码器提取特征
构造正负样 本。 特征提取时通过视角生成模块得
到不同尺度的子视角, 分别通过Transformer编
码、 聚合、 拼接后得到时间特征、 空间特征以及两
者的组合: 时空特征。 时空特征通过对比损失达
到拉近正样 本、 推远负样本的目标以获取特征表
示能力。 通过时间特征和空间特征间的一致性损
失拉近不同视角间的特征距离。 本发 明是骨架动
作识别领域一种新颖的层级化视角的建模方法,
可以深入挖掘不同视角间的互补信息, 能够实现
比现有方法性能更好的骨架动作识别。
权利要求书3页 说明书11页 附图3页
CN 115147676 A
2022.10.04
CN 115147676 A
1.一种基于层级 多视角的自监 督动作识别方法, 其特 征在于, 包括以下步骤:
S1, 对原始的无标签的骨架序列进行 预处理, 得到视角归一 化骨架序列;
S2, 将视角归一 化骨架序列经 过两个随机的同族数据增强, 得到增强骨架序列;
S3, 将增强骨架序列分别输入到 query编码器、 key编码器进行编码, 分别得到对应的时
空特征, 各个时空特 征均包含原始的无标签的骨架序列的时间特 征和空间特 征;
S4, 将步骤S3得到的时空特征均进行对比损失计算, 并对步骤S3得到的原始的无标签
的骨架序列的时间特征和空间特征均进行一致性损失计算, 并将对比损失和一致性损失计
算结果相加, 得到总损失函数;
S5, 使用总损失函数, 以端对端的方式进行自监 督学习, 构建预训练模型;
S6, 使用预训练模型中的query编码器, 并在query编码器后加入一个由全连接层组成
的分类器, 得到由编码器和分类 器构成的下游动作识别任务训练模型;
S7, 将带标签的骨架序列输入到所述下游动作识别任务训练模型中, 使用下游动作识
别任务训练模型中的编 码器从带标签的骨架数据中提取特征, 将提取的特征通过分类器进
行分类, 将分类的结果用交叉熵损失函数进行端到端的训练, 构建动作识别模型;
S8, 使用动作识别模型进行动作识别。
2.根据权利要求1所述的基于层级多视角的自监督动作识别方法, 其特征在于, 在所述
步骤S1具体包括以下步骤:
S11, 将所有原始的无标签的骨架序列修剪为统一的固定长度, 得到原始统一固定长度
骨架序列;
S12, 先对每帧中原始统一固定长度骨架序列的进行移动, 使定义的原始统一固定长度
骨架序列中心位于坐标系原点, 然后旋转原始统一固定长度骨架序列, 使人体脊柱平行于
三维坐标系的Z轴以及肩膀平行于三维坐标系的X轴, 得到 视角归一 化骨架序列。
3.根据权利要求1所述的基于层级多视角的自监督动作识别方法, 其特征在于, 所述步
骤S2具体包括以下步骤:
使用不同随机数对视角归一化骨架序列进行两次数据增强, 每次数据增强包括空间增
强和时间增强;
其中, 空间增强包括姿态增强和节点抖动, 姿态增强随机改变坐标系下视角归一化骨
架序列的视点以及定义的观测位置间的距离, 而节点抖动是将节点随机移动到原位置附近
一定范围内的某点, 但不改变原有的拓扑关系;
时间增强是先随机选择一个开始帧, 然后以随机的间隔对视角归一化骨架序列进行采
样。
4.根据权利要求1所述的基于层级多视角的自监督动作识别方法, 其特征在于, 所述步
骤S3中query编码器和key编码器获得时空特征中原始的无标签的骨架序列的时间特征均
具体包括以下步骤:
S31, 对增强骨架序列重组得到不同视角下的骨架数据, 得到增强骨架序列的帧视角和
节点视角形式, 其中, 帧视角是增强骨架序列中单帧骨架所有信息为序列元素, 而节点视角
是增强骨架序列中单个节点所有信息为序列元 素;
S32, 先提取序列元素中存在的时间特征, 将帧视角通过全连接层将低维数据映射到高
维嵌入空间, 分离笼统的特 征, 得到帧视角嵌入层特 征;权 利 要 求 书 1/3 页
2
CN 115147676 A
2S33, 通过视角生成模块对帧视角 嵌入层特征进行重组而得到第一级的片段视角, 其
中, 视角生成模块包括一维卷积神经网络、 层归一化、 线性整流激活函数和一维最大池化,
并使用视角生成模块对第一级的片段视角重组得到第二级的片段视角, 将帧视角称为父视
角, 不同级片段视角称为子 视角, 父视角和不同级的子 视角组成了层级化的时间视角;
S34, 先对不同的时间视角的增强骨架序列添加位置编码, 得到不同的位置编码时间视
角; 然后分别通过Transformer编码不同的位置编码时间视角, 得到不同的时间视角特征,
其中, Transformer的自注 意力计算 发生在时间维度上; 再通过一 维最大池化聚合不同的时
间视角特征, 得到不同的视频级特征信息; 最后将不同的视频级特征信息拼接成整个层级
化时间特 征。
5.根据权利要求4所述的基于层级多视角的自监督动作识别方法, 其特征在于, 所述步
骤S3中query编码器和key编码器获得时空特征中原始的无标签的骨架序列的空间特征均
具体包括以下步骤:
先通过视角生成模块对节点视角进行重组, 得到不同级的部件视角, 其中, 视角生成模
块包括一维卷积神经网络、 层归一化、 线性整流激活函数和一维最大池化, 然后对不同的部
件视角通过Transfomer编码聚合成不同的空间视角特征, 其中, Transformer的自注 意力计
算发生在空间维度上, 最后将不同的空间视角特 征拼接成整个层级化空间特 征。
6.根据权利要求1所述的基于层级多视角的自监督动作识别方法, 其特征在于, 所述步
骤S4中的构造总损失函数 具体包括以下步骤:
S41, 先将步骤S3得到的两个时空特征视为正样本对, 然后将其他序列通过key编码器
得到的时空特征视为负样 本, 使用队列保存负样本, 最后使用InfoNCE计算时空特征的对比
损失, 其他序列指训练过程中除当前编码的骨架序列外数据集中其他序列, 该数据集是步
骤S1中原 始的无标签的骨架序列的数据库;
S42, 对步骤S3中query编码器得到 的时间特征和key编码器得到空间特征以及其他序
列的key编码器得到的空间特征进行InfoNCE计算, 对步骤S3中key编码器得到的空间特征
和query编码器得到的时间特征以及其他序列的query编码器得到的时间特征进行InfoNCE
计算, 一致性损失为两者计算结果相加;
S43, 最终的总损失函数为对比损失和一 致性损失相加。
7.根据权利要求1所述的基于层级多视角的自监督动作识别方法, 其特征在于, 所述步
骤S7中的带标签的骨架序列在输入到下游动作识别任务训练模型前还需要经过以下步骤
进行预处理:
S71, 将所有带标签的骨架序列修剪为统一的固定长度, 得到带标签统一固定长度骨架
序列;
S72, 先对每帧中带标签统一固定长度骨架序列的进行移动, 使定义的带标签统一固定
长度骨架序列中心位于坐标系原点, 然后旋转带标签统一固定长度骨架序列, 使人体脊柱
平行于三维坐标系的Z轴以及肩膀平行于三 维坐标系的X轴, 得到带标签视角归一化骨架序
列;
S73, 将所有的带标签视角归一化骨架序列进行下采样处理, 使得带标签视角归一化骨
架序列的帧数与增强骨架序列的帧数相同。
8.一种基于层级多视角的自监督动作识别装置, 包括存储器和一个或多个处理器, 所权 利 要 求 书 2/3 页
3
CN 115147676 A
3
专利 一种基于层级多视角的自监督动作识别方法及装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:27上传分享