(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210068441.X
(22)申请日 2022.01.20
(71)申请人 中国科学院自动化研究所
地址 100190 北京市海淀区中关村东路95
号
(72)发明人 王卫宁 朱欣鑫 刘静 孙铭真
刘佳伟
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
专利代理师 刘亚平
(51)Int.Cl.
H04N 21/4402(2011.01)
G06F 16/332(2019.01)
G06F 40/30(2020.01)
(54)发明名称
一种视频生成方法、 装置、 电子设备及存储
介质
(57)摘要
本发明提供一种视频生成方法、 装置、 电子
设备及存储介质, 包括: 对待推理文本进行预处
理, 得到待推理文本的文本标识序列; 将待推理
文本的文本标识序列输入训练好的神经网络视
频生成模型, 生成待推理文本对应的视频; 训练
好的神经网络视频生成模型是根据待推理文本
真实样本的文本标识序列和待推理文本真实样
本对应的视频真实样本的标识序列进行训练得
到的, 视频真实样本的标识序列包括第一视频帧
的标识序列和第二视频帧的标识序列, 第二视频
帧的分辨率高于目标分辨率阈值, 第一视频帧的
分辨率小于第二视频帧的分辨率, 第一视频帧为
第二视频帧前一时刻的视频帧。 本发 明方法实现
了生成与待推理文本语义相 匹配的泛化性好且
分辨率高的高质量视频。
权利要求书2页 说明书14页 附图3页
CN 114598926 A
2022.06.07
CN 114598926 A
1.一种视频生成方法, 其特 征在于, 包括:
对待推理文本进行 预处理, 得到所述待推理文本的文本标识序列;
将所述待推理文本的文本标识序列输入训练好的神经网络视频生成模型, 生成所述待
推理文本对应的视频;
其中, 所述训练好的神经网络视频生成模型是根据待推理文本真实样本的文本标识序
列和所述待推理文本真实样本对应的视频真实样本的标识序列进 行训练得到的, 所述视频
真实样本的标识序列包括第一视频帧的标识序列和 第二视频帧的标识序列, 所述第二视频
帧的分辨率高于目标分辨率阈值, 所述第一视频帧的分辨率小于所述第二视频帧的分辨
率, 所述第一视频帧为所述第二视频帧前一时刻的视频帧。
2.根据权利要求1所述的视频生成方法, 其特征在于, 所述将所述待推理文本的文本标
识序列输入训练好的神经网络 视频生成模型, 生成所述待推理文本对应的视频, 包括:
步骤201, 将所述待推理文本的文本标识序列输入训练好的Transformer神经网络
Decoder模型, 生成所述待推理文本的文本标识序列对应的当前时刻的第二视频帧的标识
序列;
步骤202, 将所述当前时刻的第二视频帧的标识序列输入向量量化自编码器的解码器,
得到当前时刻的第二视频帧, 并将所述当前时刻的第二视频帧存 储至预设输出队列;
步骤203, 对所述当前时刻的第二视频帧进行下采样, 得到下采样视频帧, 并将所述下
采样视频帧输入向量 量化自编码器的编码器, 得到所述下采样视频帧的标识序列;
步骤204, 将所述下采样视频帧的标识序列和所述待推理文本的文本标识序列输入训
练好的Transformer神经网络Deco der模型, 生成下一时刻的第二视频帧的标识序列, 并将
所述下一时刻的第二视频帧的标识序列 作为所述当前时刻的第二视频帧的标识序列;
重复步骤202至步骤204, 直至所述预设输出队列中存储的第二视频帧的帧数达到预设
帧数, 根据所述预设输出队列中的各个第二视频帧, 生成所述待推理文本对应的视频;
其中, 所述训练好的神经网络视频生成模型包括所述训练好的Transformer神经网络
Decoder模型及所述向量 量化自编码器的编码器和解码器。
3.根据权利要求1所述的视频生成方法, 其特征在于, 在所述将所述待推理文本的文本
标识序列输入训练好的神经网络 视频生成模型之前, 还 包括:
对所述待推理文本真实样本进行预处理, 得到所述待推理文本真实样本的文本标识序
列, 并对所述视频真实样本进行预处理, 得到所述第一视频帧的标识序列和所述第二视频
帧的标识序列;
基于所述文本标识序列、 所述第一视频帧的标识序列和所述第二视频帧的标识序列,
确定目标 标识序列;
获取多组所述目标标识序列, 并利用多组所述目标标识序列, 对神经网络视频生成模
型进行训练。
4.根据权利要求3所述的视频生成方法, 其特征在于, 所述对所述视频真实样本进行预
处理, 得到所述第一视频帧的标识序列和所述第二视频帧的标识序列, 包括:
根据预设帧率, 随机抽取所述视频真实样本中的相邻视频帧, 得到所述第二视频帧的
前一时刻的视频帧和所述第二视频帧;
对所述第二视频帧的前一时刻的视频帧进行 下采样, 得到所述第一视频帧;权 利 要 求 书 1/2 页
2
CN 114598926 A
2将所述第一视频帧和所述第 二视频帧输入向量量化自编码器, 得到所述第 一视频帧的
标识序列和所述第二视频帧的标识序列。
5.根据权利要求3所述的视频生成方法, 其特征在于, 所述基于所述文本标识序列、 所
述第一视频帧的标识序列和所述第二视频帧的标识序列, 确定目标 标识序列, 包括:
对所述文本标识序列、 所述第 一视频帧的标识序列和所述第 二视频帧的标识序列进行
拼接处理, 得到拼接后的标识序列;
基于所述 拼接后的标识序列和预设序列长度, 确定所述目标 标识序列。
6.根据权利要求3所述的视频生成方法, 其特征在于, 所述利用多组所述目标标识序
列, 对神经网络 视频生成模型进行训练, 包括:
根据任意一组所述目标标识序列, 对神经网络视频生成模型进行自回归方式的训练,
当满足预设训练条件时, 得到训练好的神经网络 视频生成模型。
7.根据权利要求3所述的视频生成方法, 其特征在于, 所述对所述待推理文本真实样本
进行预处理, 得到所述待推理文本真实样本的文本标识序列, 包括:
基于字节对编码方法, 对所述待推理文本真实样本进行编码, 得到所述待推理文本真
实样本的文本标识序列。
8.一种视频生成装置, 其特 征在于, 包括:
预处理模块, 用于对待推理文本进行 预处理, 得到所述待推理文本的文本标识序列;
视频生成模块, 用于将所述待推理文本的文本标识序列输入训练好的神经网络视频生
成模型, 生成所述待推理文本对应的视频;
其中, 所述训练好的神经网络视频生成模型是根据待推理文本真实样本的文本标识序
列和所述待推理文本真实样本对应的视频真实样本的标识序列进 行训练得到的, 所述视频
真实样本的标识序列包括第一视频帧的标识序列和 第二视频帧的标识序列, 所述第二视频
帧的分辨率高于目标分辨率阈值, 所述第一视频帧的分辨率小于所述第二视频帧的分辨
率, 所述第一视频帧为所述第二视频帧前一时刻的视频帧。
9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运
行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7任一项所
述视频生成方法的步骤。
10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算
机程序被处 理器执行时实现如权利要求1至7任一项所述视频生成方法的步骤。权 利 要 求 书 2/2 页
3
CN 114598926 A
3
专利 一种视频生成方法、装置、电子设备及存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:54上传分享