专利一种语音生成视频的方法和装置 -在线下载 -AI解读-standardlibrary.site

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211508415.0 (22)申请日 2022.11.29 (71)申请人苏州浪潮智能科技有限公司地址 215000 江苏省苏州市吴中区吴中经济开发区郭巷街道官浦路1号9幢 (72)发明人王鹏飞　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师莎日娜 (51)Int.Cl. H04N 21/81(2011.01) G06V 40/20(2022.01) G06V 20/70(2022.01) G06V 20/40(2022.01) G06V 10/82(2022.01)G06F 40/30(2020.01) (54)发明名称一种语音生成视频的方法和装置 (57)摘要本发明实施例提供了一种语音生成视频的方法和装置，方法包括：响应于语音输入操作，确定语音输入操作对应的语音数据；根据语音数据，从针对目标对象配置的多个预设形象中确定目标形象；获取基于语音提取姿势数据的第一模型，并通过第一模型确定语音数据的初始姿势数据；获取目标形象对应的标准姿势数据，并根据标准姿势数据对初始姿势数据进行重定向，得到目标姿势数据；确定目标形象对应的用于基于姿势合成视频的第二模型，并将目标姿势数据输入第二模型中，生成目标形象的目标视频。通过本发明实施例，实现了基于语音数据生成包含目标对象姿势动作的目标视频，使生成的视频更形象生动，增加沉浸感和体验感。权利要求书5页说明书18页附图7页 CN 115550744 A 2022.12.30 CN 115550744 A 1.一种语音生成视频的方法，其特征在于，所述方法包括：响应于语音输入操作，确定所述语音输入操作对应的语音数据；根据所述语音数据，从针对目标对象配置的多个预设形象中确定目标形象；获取基于语音提取姿势数据的第一模型，并通过所述第一模型确定所述语音数据的初始姿势数据；获取所述目标形象对应的标准姿势数据，并根据所述标准姿势数据对所述初始姿势数据进行重定向，得到目标姿势数据；确定所述目标形象对应的用于基于姿势合成视频的第二模型，并将所述目标姿势数据输入所述第二模型中，生成所述目标形象的目标视频。 2.根据权利要求1所述的方法，其特征在于，所述通过所述第一模型确定所述语音数据的初始姿势数据，包括：确定所述语音数据对应的语义数据；根据所述语音数据和所述语义数据，确定所述语音数据对应的初始姿势数据。 3.根据权利要求2所述的方法，其特征在于，所述根据所述语音数据和所述语义数据，确定所述语音数据对应的初始姿势数据，包括：判断所述语义数据是否为目标语义数据，所述目标语义数据在所述第一模型中存在对应的第一姿势数据；在判定所述语义数据为目标语义数据时，确定所述目标语义数据的目标语义向量；确定所述语音数据的第一语音向量；根据所述目标语义向量、所述第一语音向量和所述第一姿势数据确定所述目标语音数据的初始姿势数据。 4.根据权利要求3所述的方法，其特征在于，所述根据所述目标语义向量、所述第一语音向量和所述第一姿势数据确定所述语音数据的初始姿势数据，包括：将所述目标语义向量和所述第一语音向量进行拼接，生成第一拼接向量；根据所述第一拼接向量和所述第一姿势数据确定所述目标语音数据的初始姿势数据。 5.根据权利要求3所述的方法，其特征在于，还包括：在判定所述语义数据不为目标语义数据时，从所述第一模型预设的多个模板向量中随机确定目标模板向量；所述目标模板向量在所述第一模型中存在对应的第二姿势数据；确定所述语音数据的第二语音向量；根据所述目标模板向量、所述第二语音向量以及所述第二姿势数据确定所述语音数据的初始姿势数据。 6.根据权利要求5所述的方法，其特征在于，所述根据所述目标模板向量、所述第二语音向量以及所述第二姿势数据确定所述语音数据的初始姿势数据，包括：将所述目标模板向量和所述第二语音向量进行拼接，生成第二拼接向量；根据所述第二拼接向量和所述第二姿势数据确定所述语音数据的初始姿势数据。 7.根据权利要求1所述的方法，其特征在于，所述根据所述标准姿势数据对所述初始姿势数据进行重定向，得到目标姿势数据，包括：确定所述标准姿势数据的姿势参数；根据所述姿势参数对所述初始姿势数据进行调整，得到目标姿势数据。权　利　要　求　书 1/5 页 2 CN 115550744 A 28.根据权利要求1所述的方法，其特征在于，所述根据所述语音数据，从针对目标对象配置的多个预设形象中确定目标形象，包括：获取预先训练的用于筛选形象的第三模型；将所述语音数据输入所述第三模型，确定所述语音数据的音频特征数据，并根据所述音频特征数据确定所述语音数据对应的形象属性信息；基于所述形象属性信息从针对目标对象配置的多个预设形象中确定目标形象。 9.根据权利要求1所述的方法，其特征在于，所述第一模型通过如下步骤训练生成：获取预设的第一模型和针对所述第一模型进行训练的第一视频；所述第一视频为所述目标对象随语音变换姿势的语音视频；确定所述第一视频中候选语音数据以及所述候选语音数据对应的候选语义数据；从所述第一视频的每帧图像中提取所述目标对象的候选姿势数据；根据所述候选语音数据、所述候选语义数据和所述候选姿势数据对所述第一模型进行训练，以使所述第一模型针对输入的语音数据生成对应的姿势数据。 10.根据权利要求9所述的方法，其特征在于，所述根据所述候选语音数据、所述候选语义数据和所述候选姿势数据对所述第一模型进行训练，包括：确定所述第一模型中预设的目标语义数据；当所述候选语义数据为所述目标语义数据时，确定所述目标语义数据的目标语义向量和所述候选语音数据对应的语音向量；将所述目标语义向量和所述语音向量输入所述第一模型，生成第一预测姿势数据；基于所述候选姿势数据和所述第一预测姿势数据对所述第一模型进行调整。 11.根据权利要求10所述的方法，其特征在于，还包括：当所述候选语义数据不为所述目标语义数据时，从所述第一模型预设的多个模板向量中随机确定目标模板向量；将所述目标模板向量和所述候选语音数据对应的语音向量输入所述第一模型，生成第二预测姿势数据；基于所述候选姿势数据和所述第二预测姿势数据对所述第一模型进行调整。 12.根据权利要求1所述的方法，其特征在于，所述目标形象的第二模型通过如下步骤训练生成：针对所述目标对象录制基于目标形象变换姿势的第二视频；获取预设的用于基于姿势合成视频的第二模型；将所述第二视频输入到第二模型中，以从所述第二视频的每帧图像中提取所述目标对象对应的第三预测姿势数据，并基于所述第三预测姿势数据生成预测视频；基于所述第二视频和所述预测视频调整所述第二模型。 13.根据权利要求12所述的方法，其特征在于，所述基于所述第二视频和所述预测视频调整所述第二模型，包括：确定所述第二模型的第一损失函数；基于所述第二视频和所述预测视频，确定所述第一损失函数的第一损失值；根据所述第一损失值调整所述第二模型的模型参数。 14.根据权利要求12所述的方法，其特征在于，还包括：权　利　要　求　书 2/5 页 3 CN 115550744 A 3

专利 一种语音生成视频的方法和装置

专利一种语音生成视频的方法和装置