(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211508415.0
(22)申请日 2022.11.29
(71)申请人 苏州浪潮智能科技有限公司
地址 215000 江苏省苏州市吴中区吴中经
济开发区郭巷街道官浦路1号9幢
(72)发明人 王鹏飞
(74)专利代理 机构 北京润泽恒知识产权代理有
限公司 1 1319
专利代理师 莎日娜
(51)Int.Cl.
H04N 21/81(2011.01)
G06V 40/20(2022.01)
G06V 20/70(2022.01)
G06V 20/40(2022.01)
G06V 10/82(2022.01)G06F 40/30(2020.01)
(54)发明名称
一种语音生成视频的方法和装置
(57)摘要
本发明实施例提供了一种语音生成视频的
方法和装置, 方法包括: 响应于语音输入操作, 确
定语音输入操作对应的语音数据; 根据语音数
据, 从针对目标对象配置的多个预设形象中确定
目标形象; 获取基于语音提取姿势数据的第一模
型, 并通过第一模型确定语音数据的初始姿势数
据; 获取目标形象对应的标准姿势数据, 并根据
标准姿势数据对初始姿势数据进行重定向, 得到
目标姿势数据; 确定目标形象对应的用于基于姿
势合成视频的第二模型, 并将目标姿势数据输入
第二模型中, 生成目标形象的目标视频。 通过本
发明实施例, 实现了基于语音数据生成包含目标
对象姿势动作的目标视频, 使生成的视频更形象
生动, 增加沉浸感和体验感。
权利要求书5页 说明书18页 附图7页
CN 115550744 A
2022.12.30
CN 115550744 A
1.一种语音生成视频的方法, 其特 征在于, 所述方法包括:
响应于语音输入操作, 确定所述语音输入操作对应的语音数据;
根据所述语音数据, 从针对目标对象配置的多个预设形象中确定目标 形象;
获取基于语音提取姿势数据的第 一模型, 并通过所述第 一模型确定所述语音数据的初
始姿势数据;
获取所述目标形象对应的标准姿势数据, 并根据 所述标准姿势数据对所述初始姿势数
据进行重 定向, 得到目标姿势数据;
确定所述目标形象对应的用于基于姿势合成视频的第 二模型, 并将所述目标姿势数据
输入所述第二模型中, 生成所述目标 形象的目标视频。
2.根据权利要求1所述的方法, 其特征在于, 所述通过所述第 一模型确定所述语音数据
的初始姿势数据, 包括:
确定所述语音数据对应的语义数据;
根据所述语音数据和所述语义数据, 确定所述语音数据对应的初始姿势数据。
3.根据权利要求2所述的方法, 其特征在于, 所述根据所述语音数据和所述语义数据,
确定所述语音数据对应的初始姿势数据, 包括:
判断所述语义数据是否为目标语义数据, 所述目标语义数据在所述第 一模型中存在对
应的第一姿势数据;
在判定所述语义数据为目标语义数据时, 确定所述目标语义数据的目标语义向量;
确定所述语音数据的第一语音向量;
根据所述目标语义向量、 所述第 一语音向量和所述第 一姿势数据确定所述目标语音数
据的初始姿势数据。
4.根据权利要求3所述的方法, 其特征在于, 所述根据所述目标语义向量、 所述第一语
音向量和所述第一姿势数据确定所述语音数据的初始姿势数据, 包括:
将所述目标语义向量和所述第一语音向量进行拼接, 生成第一 拼接向量;
根据所述第一 拼接向量和所述第一姿势数据确定所述目标语音数据的初始姿势数据。
5.根据权利要求3所述的方法, 其特 征在于, 还 包括:
在判定所述语义数据不为目标语义数据时, 从所述第 一模型预设的多个模板向量中随
机确定目标模板向量; 所述目标模板向量在所述第一模型中存在对应的第二姿势数据;
确定所述语音数据的第二语音向量;
根据所述目标模板向量、 所述第 二语音向量以及所述第 二姿势数据确定所述语音数据
的初始姿势数据。
6.根据权利要求5所述的方法, 其特征在于, 所述根据所述目标模板向量、 所述第二语
音向量以及所述第二姿势数据确定所述语音数据的初始姿势数据, 包括:
将所述目标模板向量和所述第二语音向量进行拼接, 生成第二 拼接向量;
根据所述第二 拼接向量和所述第二姿势数据确定所述语音数据的初始姿势数据。
7.根据权利要求1所述的方法, 其特征在于, 所述根据所述标准姿势数据对所述初始姿
势数据进行重 定向, 得到目标姿势数据, 包括:
确定所述标准姿势数据的姿势参数;
根据所述姿势参数对所述初始姿势数据进行调整, 得到目标姿势数据。权 利 要 求 书 1/5 页
2
CN 115550744 A
28.根据权利要求1所述的方法, 其特征在于, 所述根据所述语音数据, 从针对目标对象
配置的多个预设形象中确定目标 形象, 包括:
获取预先训练的用于 筛选形象的第三模型;
将所述语音数据输入所述第三模型, 确定所述语音数据的音频特征数据, 并根据所述
音频特征数据确定所述语音数据对应的形象属性信息;
基于所述形象属性信息从针对目标对象配置的多个预设形象中确定目标 形象。
9.根据权利要求1所述的方法, 其特 征在于, 所述第一模型通过如下步骤训练生成:
获取预设的第 一模型和针对所述第 一模型进行训练 的第一视频; 所述第 一视频为所述
目标对象随语音变换姿势的语音视频;
确定所述第一视频中候选语音数据以及所述 候选语音数据对应的候选语义数据;
从所述第一视频的每帧图像中提取 所述目标对象的候选姿势数据;
根据所述候选语音数据、 所述候选语义数据和所述候选姿势数据对所述第 一模型进行
训练, 以使所述第一模型针对输入的语音数据生成对应的姿势数据。
10.根据权利要求9所述的方法, 其特征在于, 所述根据所述候选语音数据、 所述候选语
义数据和所述 候选姿势数据对所述第一模型进行训练, 包括:
确定所述第一模型中预设的目标语义数据;
当所述候选语义数据为所述目标语义数据时, 确定所述目标语义数据的目标语义向量
和所述候选语音数据对应的语音向量;
将所述目标语义向量和所述语音向量输入所述第一模型, 生成第一预测姿势数据;
基于所述 候选姿势数据和所述第一预测姿势数据对所述第一模型进行调整。
11.根据权利要求10所述的方法, 其特 征在于, 还 包括:
当所述候选语义数据不为所述目标语义数据时, 从所述第 一模型预设的多个模板向量
中随机确定目标模板向量;
将所述目标模板向量和所述候选语音数据对应的语音向量输入所述第 一模型, 生成第
二预测姿势数据;
基于所述 候选姿势数据和所述第二预测姿势数据对所述第一模型进行调整。
12.根据权利要求1所述的方法, 其特征在于, 所述目标形象的第二模型通过如下步骤
训练生成:
针对所述目标对象录制基于目标 形象变换姿势的第二视频;
获取预设的用于基于姿势合成视频的第二模型;
将所述第二视频输入到第 二模型中, 以从所述第 二视频的每帧图像中提取所述目标对
象对应的第三预测姿势数据, 并基于所述第三预测姿势数据生成预测视频;
基于所述第二视频和所述预测视频调整所述第二模型。
13.根据权利要求12所述的方法, 其特征在于, 所述基于所述第 二视频和所述预测视频
调整所述第二模型, 包括:
确定所述第二模型的第一损失函数;
基于所述第二视频和所述预测视频, 确定所述第一损失函数的第一损失值;
根据所述第一损失值调整所述第二模型的模型参数。
14.根据权利要求12所述的方法, 其特 征在于, 还 包括:权 利 要 求 书 2/5 页
3
CN 115550744 A
3
专利 一种语音生成视频的方法和装置
文档预览
中文文档
31 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:26:40上传分享