专利 基于反事实分析的第一视角视频行为预测模型训练方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210985312.7 (22)申请日 2022.08.17 (71)申请人中国科学院计算技术研究所地址 100190 北京市海淀区中关村科学院南路6号 (72)发明人蒋树强　张天予　闵巍庆　 (74)专利代理机构北京泛华伟业知识产权代理有限公司 1 1280 专利代理师王勇 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/74(2022.01) G06V 10/82(2022.01) (54)发明名称基于反事实分析的第一视角视频行为预测模型训练方法 (57)摘要本发明提供一种基于反事实分析的第一视角视频行为预测模型训练方法，采用第一视角视频训练集对预测模型进行多轮迭代训练直至收敛，其中，每轮训练包括：分别提取每个样本的视觉特征和语义特征；分别对视觉特征和语义特征进行编解码处理得到视觉特征对应的下一时刻的高维特征向量和语义特征对应的下一时刻的高维特征向量；基于高维特征向量分别获得下一时刻的反事实预测向量和事实预测向量；从每个样本对应的事实预测向量中按照相似度抠除反事实预测向量得到下一时刻的最终行为预测向量；每个样本的下一时刻的行为对应的最终预测向量与对应下一时刻的行为标签对应的向量之间的交叉熵损失更新预测模型的参数。权利要求书2页说明书9页附图1页 CN 115359395 A 2022.11.18 CN 115359395 A 1.一种基于反事实分析的第一视角视频行为预测模型训练方法，所述预测模型包括视觉特征提取模块、语义特征提取模块、视觉特征编解码网络、语义特征编解码网络、第一线性层、第二线性层、行为预测模块，其特征在于，所述方法包括： S1、获取第一视角视频训练集，所述训练集中包括多个视频样本且每个样本对应有视频对应的下一时刻的行为标签； S2、采用步骤S1获得的训练集对预测模型进行多轮迭代训练直至收敛，其中，每轮训练包括： S21、采用视觉特征提取模块和语义特征提取模块分别提取每个样本的视觉特征和语义特征； S22、采用视觉特征编解码网络对每个样本的视觉特征进行编解码处理得到每个样本的视觉特征对应的下一时刻的高维特征向量，采用语义特征编解码网络对每个样本的语义特征进行编解码处理得到每个样本的语义特征对应的下一时刻的高维特征向量； S23、采用第一线性层对每个样本的语义特征对应的下一时刻的高维特征向量进行处理以将其映射到下一时刻的行为类别得到每个样本对应的下一时刻的反事实预测向量，采用第二线性层对每个样本的视觉特征对应的下一时刻的高维特征向量和语义特征对应的下一时刻的高维特征向量的拼接结果进行处理以将其映射到下一时刻的行为类别得到每个样本对应的下一时刻的事实预测向量； S24、采用行为预测模块计算每个样本对应的下一时刻的反事实预测向量与事实预测向量之间的相似度，并以相似度作为每个样本对应的下一时刻的反事实预测向量的权重，从每个样本对应的下一时刻的事实预测向量中按照对应权重抠除下一时刻的反事实预测向量得到下一时刻的行为对应的最终行为预测向量； S25、基于每个样本的下一时刻的行为对应的最终预测向量与对应下一时刻的行为标签对应的向量之间的交叉熵损失更新预测模型的参数。 2.根据权利要求1所述的方法，其特征在于，在所述步骤S24中，通过如下方式计算每个样本对应的下一时刻的反事实预测向量与事实预测向量之间的相似度：其中， Yf表示样本对应的下一时刻的事实预测向量， Yc表示样本对应的下一时刻的反事实预测向量， ⊙表示向量逐元素相乘， | |Yf||2和 ‖ Yc‖2分别表示向量Yf和向量Yc的模值。 3.根据权利要求2所述的方法，其特征在于，在所述步骤S24中，对每个样本对应的下一时刻的反事实预测向量与事实预测向量之间的相似度通过如下方式进行规范化处理：其中， b1和b2是预设的超参数，分别对应于规范化之后的区间下界和上界，且b1<b2， sigmoid是激活函数。 4.根据权利要求3所述的方法，其特征在于， b1＝ ‑5,b2＝5。 5.根据权利要求4所述的方法，其特征在于，所述最终行为预测向量通过如下方式计算：权　利　要　求　书 1/2 页 2 CN 115359395 A 2g(Yf,Yc)＝Yf‑σ(Yf,Yc)·Yc 其中， g(Yf,Yc)表示最终预测向量。 6.根据权利要求5所述的方法，其特征在于，所述交叉熵损失通过如下方式计算：其中， N是训练集中样本的数量，表示第i个样本的行为标签对应的向量， (Y)i表示第i个样本的最终行为预测向量。 7.一种基于反事实分析的第一视角视频行为预测方法，其特征在于，所述方法包括： T1、获取待预测视频； T2、采用如权利要求1 ‑6任一所述方法训练的预测模型预测待预测视频下一时刻的行为。 8.一种基于反事实分析的第一视角视频行为预测系统，用于根据视频预测下一时刻的行为，其特征在于，所述系统包括：视觉特征提取模块，用于提取视频的视觉特征；语义特征提取模块，用于提取视频的语义特征；视觉特征编解码网络，用于对视频的视觉特征进行编解码处理得到视频的视觉特征对应的下一时刻的高维特征向量；语义特征编解码网络，用于对视频的语义特征进行编解码处理得到视频的语义特征对应的下一时刻的高维特征向量；第一线性层，用于对视频的语义特征对应的下一时刻的高维特征向量进行处理以将其映射到下一时刻的行为类别得到视频对应的下一时刻的反事实预测向量；第二线性层，用于对视频的语义特征对应的下一时刻的高维特征向量和视觉特征对应的下一时刻的高维特征向量进行处理以将其映射到下一时刻的行为类别得到视频对应的下一时刻的事实预测向量；行为预测模块，用于计算视频对应的下一时刻的反事实预测向量与事实预测向量之间的相似度，并以相似度为反事实预测向量的权重，从视频的下一时刻的事实预测向量中按照权重抠除视频下一时刻的反事实预测向量得到视频下一时刻的最终行为预测向量。 9.根据权利要求8所述的系统，其特征在于，所述视觉特征提取模块为卷积神经网络模型；所述语义特征提取模块为Word2Vec词向量模型；所述视觉特征编解码网络和语义特征编解码网络均为 LSTM编解码网络。 10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序可被处理器执行以实现权利要求1 ‑6、 7任一所述方法的步骤。 11.一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1 ‑6、 7中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 115359395 A 3

专利 基于反事实分析的第一视角视频行为预测模型训练方法

专利基于反事实分析的第一视角视频行为预测模型训练方法