(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210985312.7
(22)申请日 2022.08.17
(71)申请人 中国科学院计算 技术研究所
地址 100190 北京市海淀区中关村科 学院
南路6号
(72)发明人 蒋树强 张天予 闵巍庆
(74)专利代理 机构 北京泛华伟业知识产权代理
有限公司 1 1280
专利代理师 王勇
(51)Int.Cl.
G06V 20/40(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于反事实分析的第一视角视频行为预测
模型训练方法
(57)摘要
本发明提供一种基于反事实分析的第一视
角视频行为预测模型训练方法, 采用第一视角视
频训练集对预测模型进行多轮迭代训练直至收
敛, 其中, 每轮训练包括: 分别提取每个样本的视
觉特征和语义特征; 分别对视觉特征和语义特征
进行编解码处理得到视觉特征对应的下一时刻
的高维特征向量和语义特征对应的下一时刻 的
高维特征向量; 基于高维特征向量分别获得下一
时刻的反事实预测向量和事实预测向量; 从每个
样本对应的事实预测向量中按照相似度抠除反
事实预测向量得到下一时刻 的最终行为预测向
量; 每个样 本的下一时刻的行为对应的最终预测
向量与对应下一时刻 的行为标签对应的向量之
间的交叉熵损失更新预测模型的参数。
权利要求书2页 说明书9页 附图1页
CN 115359395 A
2022.11.18
CN 115359395 A
1.一种基于反事实分析的第 一视角视频行为预测模型训练方法, 所述预测模型包括视
觉特征提取模块、 语义特征提取模块、 视觉特征编解码网络、 语义特征编解码网络、 第一线
性层、 第二线性层、 行为预测模块, 其特 征在于, 所述方法包括:
S1、 获取第一视角视频训练集, 所述训练集中包括多个视频样本且每个样本对应有视
频对应的下一时刻的行为标签;
S2、 采用步骤S1获得的训练集对预测模型进行多轮迭代训练直至收敛, 其中, 每轮训练
包括:
S21、 采用视觉特征提取模块和语义特征提取模块分别提取每个样本的视觉特征和语
义特征;
S22、 采用视觉特征编解码网络对每个样本的视觉特征进行编解码处理得到每个样本
的视觉特征对应的下一时刻的高维特征向量, 采用语义特征编解码网络对每个样本的语义
特征进行编解码处 理得到每 个样本的语义特 征对应的下一时刻的高维特 征向量;
S23、 采用第一线性层对每个样本的语义特征对应的下一时刻的高维特征向量进行处
理以将其映射到下一时刻的行为类别得到每个样本对应的下一时刻的反事实预测向量, 采
用第二线性层对每个样本的视觉特征对应的下一时刻的高维特征向量和语义特征对应的
下一时刻的高维特征向量的拼接结果进行处理以将其映射到下一时刻的行为类别得到每
个样本对应的下一时刻的事实预测向量;
S24、 采用行为预测模块计算每个样本对应的下一时刻的反事实预测向量与事实预测
向量之间的相似度, 并以相似度作为每个样本对应的下一时刻的反事实预测向量的权重,
从每个样本对应的下一时刻的事实预测向量中按照对应权重抠除下一时刻的反事实预测
向量得到下一时刻的行为对应的最终行为预测向量;
S25、 基于每个样本的下一时刻的行为对应的最终预测向量与对应下一时刻的行为标
签对应的向量之间的交叉熵损失更新预测模型的参数。
2.根据权利要求1所述的方法, 其特征在于, 在所述步骤S24中, 通过如下方式计算每个
样本对应的下一时刻的反事实预测向量与事实预测向量之间的相似度:
其中, Yf表示样本对应的下一时刻的事实预测向量, Yc表示样本对应的下一时刻的反事
实预测向量, ⊙表示向量逐 元素相乘, | |Yf||2和 ‖ Yc‖2分别表示向量Yf和向量Yc的模值。
3.根据权利要求2所述的方法, 其特征在于, 在所述步骤S24中, 对每个样本对应的下一
时刻的反事实预测向量与事实预测向量之间的相似度通过如下 方式进行规范化处 理:
其中, b1和b2是预设的超参数, 分别对应于规范化之后的区间下界和上界, 且b1<b2,
sigmoid是激活函数。
4.根据权利要求3所述的方法, 其特 征在于, b1= ‑5,b2=5。
5.根据权利要求4所述的方法, 其特征在于, 所述最终行为预测向量通过如下方式计
算:权 利 要 求 书 1/2 页
2
CN 115359395 A
2g(Yf,Yc)=Yf‑σ(Yf,Yc)·Yc
其中, g(Yf,Yc)表示最终预测向量。
6.根据权利要求5所述的方法, 其特 征在于, 所述交叉熵损失通过如下 方式计算:
其中, N是训练集中样本的数量,
表示第i个样本的行为标签对应的向量, (Y)i表示
第i个样本的最终行为预测向量。
7.一种基于反事实分析的第一视角视频 行为预测方法, 其特 征在于, 所述方法包括:
T1、 获取待预测视频;
T2、 采用如权利要求1 ‑6任一所述方法训练的预测模型预测待预测视频下一时刻的行
为。
8.一种基于反事实分析的第 一视角视频行为预测系统, 用于根据视频预测下一时刻的
行为, 其特 征在于, 所述系统包括:
视觉特征提取模块, 用于提取视频的视 觉特征;
语义特征提取模块, 用于提取视频的语义特 征;
视觉特征编 解码网络, 用于对视频的视觉特征进行编 解码处理得到视频的视觉特征对
应的下一时刻的高维特 征向量;
语义特征编 解码网络, 用于对视频的语义特征进行编 解码处理得到视频的语义特征对
应的下一时刻的高维特 征向量;
第一线性层, 用于对视频的语义特征对应的下一 时刻的高维特征向量进行处理以将其
映射到下一时刻的行为类别得到 视频对应的下一时刻的反事实预测向量;
第二线性层, 用于对视频的语义特征对应的下一 时刻的高维特征向量和视觉特征对应
的下一时刻的高维特征向量进行处理以将其映射到下一时刻的行为类别得到视频对应的
下一时刻的事实预测向量;
行为预测模块, 用于计算视频对应的下一 时刻的反事实预测向量与事实预测向量之间
的相似度, 并以相似度为反事实预测向量的权重, 从视频 的下一时刻的事实预测向量中按
照权重抠除视频 下一时刻的反事实预测向量得到 视频下一时刻的最终行为预测向量。
9.根据权利要求8所述的系统, 其特 征在于,
所述视觉特征提取模块 为卷积神经网络模型;
所述语义特 征提取模块 为Word2Vec词向量模型;
所述视觉特征编解码网络和语义特 征编解码网络均为 LSTM编解码网络 。
10.一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序, 所述计算机程序
可被处理器执行以实现权利要求1 ‑6、 7任一所述方法的步骤。
11.一种电子设备, 其特 征在于, 包括:
一个或多个处 理器;
存储装置, 用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理
器执行时, 使得 所述电子设备实现如权利要求1 ‑6、 7中任一项所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 115359395 A
3
专利 基于反事实分析的第一视角视频行为预测模型训练方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:37上传分享