专利 一种基于层级多视角的自监督动作识别方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210724589.4 (22)申请日 2022.06.23 (71)申请人浙江工商大学地址 310018 浙江省杭州市下沙高教园区学正街18号 (72)发明人董建锋　孙圣凯　陈书界　王勋　刘宝龙　蔡佳航　杨文武　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师刘静 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) G06V 40/20(2022.01)G06N 3/04(2006.01) (54)发明名称一种基于层级多视角的自监督动作识别方法及装置 (57)摘要本发明公开了一种基于层级多视角的自监督动作识别方法及装置，该方法包括：先是对比学习的预训练阶段，原始数据通过数据增强和重组分别通过key编码器和query编码器提取特征构造正负样本。特征提取时通过视角生成模块得到不同尺度的子视角，分别通过Transformer编码、聚合、拼接后得到时间特征、空间特征以及两者的组合：时空特征。时空特征通过对比损失达到拉近正样本、推远负样本的目标以获取特征表示能力。通过时间特征和空间特征间的一致性损失拉近不同视角间的特征距离。本发明是骨架动作识别领域一种新颖的层级化视角的建模方法，可以深入挖掘不同视角间的互补信息，能够实现比现有方法性能更好的骨架动作识别。权利要求书3页说明书11页附图3页 CN 115147676 A 2022.10.04 CN 115147676 A 1.一种基于层级多视角的自监督动作识别方法，其特征在于，包括以下步骤： S1，对原始的无标签的骨架序列进行预处理，得到视角归一化骨架序列； S2，将视角归一化骨架序列经过两个随机的同族数据增强，得到增强骨架序列； S3，将增强骨架序列分别输入到 query编码器、 key编码器进行编码，分别得到对应的时空特征，各个时空特征均包含原始的无标签的骨架序列的时间特征和空间特征； S4，将步骤S3得到的时空特征均进行对比损失计算，并对步骤S3得到的原始的无标签的骨架序列的时间特征和空间特征均进行一致性损失计算，并将对比损失和一致性损失计算结果相加，得到总损失函数； S5，使用总损失函数，以端对端的方式进行自监督学习，构建预训练模型； S6，使用预训练模型中的query编码器，并在query编码器后加入一个由全连接层组成的分类器，得到由编码器和分类器构成的下游动作识别任务训练模型； S7，将带标签的骨架序列输入到所述下游动作识别任务训练模型中，使用下游动作识别任务训练模型中的编码器从带标签的骨架数据中提取特征，将提取的特征通过分类器进行分类，将分类的结果用交叉熵损失函数进行端到端的训练，构建动作识别模型； S8，使用动作识别模型进行动作识别。 2.根据权利要求1所述的基于层级多视角的自监督动作识别方法，其特征在于，在所述步骤S1具体包括以下步骤： S11，将所有原始的无标签的骨架序列修剪为统一的固定长度，得到原始统一固定长度骨架序列； S12，先对每帧中原始统一固定长度骨架序列的进行移动，使定义的原始统一固定长度骨架序列中心位于坐标系原点，然后旋转原始统一固定长度骨架序列，使人体脊柱平行于三维坐标系的Z轴以及肩膀平行于三维坐标系的X轴，得到视角归一化骨架序列。 3.根据权利要求1所述的基于层级多视角的自监督动作识别方法，其特征在于，所述步骤S2具体包括以下步骤：使用不同随机数对视角归一化骨架序列进行两次数据增强，每次数据增强包括空间增强和时间增强；其中，空间增强包括姿态增强和节点抖动，姿态增强随机改变坐标系下视角归一化骨架序列的视点以及定义的观测位置间的距离，而节点抖动是将节点随机移动到原位置附近一定范围内的某点，但不改变原有的拓扑关系；时间增强是先随机选择一个开始帧，然后以随机的间隔对视角归一化骨架序列进行采样。 4.根据权利要求1所述的基于层级多视角的自监督动作识别方法，其特征在于，所述步骤S3中query编码器和key编码器获得时空特征中原始的无标签的骨架序列的时间特征均具体包括以下步骤： S31，对增强骨架序列重组得到不同视角下的骨架数据，得到增强骨架序列的帧视角和节点视角形式，其中，帧视角是增强骨架序列中单帧骨架所有信息为序列元素，而节点视角是增强骨架序列中单个节点所有信息为序列元素； S32，先提取序列元素中存在的时间特征，将帧视角通过全连接层将低维数据映射到高维嵌入空间，分离笼统的特征，得到帧视角嵌入层特征；权　利　要　求　书 1/3 页 2 CN 115147676 A 2S33，通过视角生成模块对帧视角嵌入层特征进行重组而得到第一级的片段视角，其中，视角生成模块包括一维卷积神经网络、层归一化、线性整流激活函数和一维最大池化，并使用视角生成模块对第一级的片段视角重组得到第二级的片段视角，将帧视角称为父视角，不同级片段视角称为子视角，父视角和不同级的子视角组成了层级化的时间视角； S34，先对不同的时间视角的增强骨架序列添加位置编码，得到不同的位置编码时间视角；然后分别通过Transformer编码不同的位置编码时间视角，得到不同的时间视角特征，其中， Transformer的自注意力计算发生在时间维度上；再通过一维最大池化聚合不同的时间视角特征，得到不同的视频级特征信息；最后将不同的视频级特征信息拼接成整个层级化时间特征。 5.根据权利要求4所述的基于层级多视角的自监督动作识别方法，其特征在于，所述步骤S3中query编码器和key编码器获得时空特征中原始的无标签的骨架序列的空间特征均具体包括以下步骤：先通过视角生成模块对节点视角进行重组，得到不同级的部件视角，其中，视角生成模块包括一维卷积神经网络、层归一化、线性整流激活函数和一维最大池化，然后对不同的部件视角通过Transfomer编码聚合成不同的空间视角特征，其中， Transformer的自注意力计算发生在空间维度上，最后将不同的空间视角特征拼接成整个层级化空间特征。 6.根据权利要求1所述的基于层级多视角的自监督动作识别方法，其特征在于，所述步骤S4中的构造总损失函数具体包括以下步骤： S41，先将步骤S3得到的两个时空特征视为正样本对，然后将其他序列通过key编码器得到的时空特征视为负样本，使用队列保存负样本，最后使用InfoNCE计算时空特征的对比损失，其他序列指训练过程中除当前编码的骨架序列外数据集中其他序列，该数据集是步骤S1中原始的无标签的骨架序列的数据库； S42，对步骤S3中query编码器得到的时间特征和key编码器得到空间特征以及其他序列的key编码器得到的空间特征进行InfoNCE计算，对步骤S3中key编码器得到的空间特征和query编码器得到的时间特征以及其他序列的query编码器得到的时间特征进行InfoNCE 计算，一致性损失为两者计算结果相加； S43，最终的总损失函数为对比损失和一致性损失相加。 7.根据权利要求1所述的基于层级多视角的自监督动作识别方法，其特征在于，所述步骤S7中的带标签的骨架序列在输入到下游动作识别任务训练模型前还需要经过以下步骤进行预处理： S71，将所有带标签的骨架序列修剪为统一的固定长度，得到带标签统一固定长度骨架序列； S72，先对每帧中带标签统一固定长度骨架序列的进行移动，使定义的带标签统一固定长度骨架序列中心位于坐标系原点，然后旋转带标签统一固定长度骨架序列，使人体脊柱平行于三维坐标系的Z轴以及肩膀平行于三维坐标系的X轴，得到带标签视角归一化骨架序列； S73，将所有的带标签视角归一化骨架序列进行下采样处理，使得带标签视角归一化骨架序列的帧数与增强骨架序列的帧数相同。 8.一种基于层级多视角的自监督动作识别装置，包括存储器和一个或多个处理器，所权　利　要　求　书 2/3 页 3 CN 115147676 A 3

专利 一种基于层级多视角的自监督动作识别方法及装置

专利一种基于层级多视角的自监督动作识别方法及装置