(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211327173.5 (22)申请日 2022.10.27 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新 开发区望 江西路666号 (72)发明人 方嘉仪 何山 殷兵 刘聪 周良  吴小燕  (74)专利代理 机构 北京布瑞知识产权代理有限 公司 11505 专利代理师 尚文文 (51)Int.Cl. G06V 40/16(2022.01) G06V 40/20(2022.01) G06V 10/22(2022.01) G06V 10/26(2022.01)G06V 10/774(2022.01) G10L 19/04(2013.01) (54)发明名称 基于语音的图像驱动方法、 装置、 电子设备 及存储介质 (57)摘要 本申请提出一种基于语音的图像驱动方法、 装置、 电子设备及存储介质, 方法包括: 预测目标 语音对应的口唇偏移数据和目标语音对应的头 部运动数据; 根据目标语音对应的口唇偏移数据 和目标语音对应的头部运动数据, 对待驱动面部 图像的各个面部关键点进行位置变换, 得到待驱 动面部图像的更新后的面部关键点位置; 基于待 驱动面部图像的更新后的面部关键点位置, 生成 驱动后的面部图像。 采用本申请的技术方案, 可 以直接预测目标语音对应的口唇偏移数据和头 部运动数据, 然后根据口唇偏移数据和头部运动 数据对待驱动面部图像进行驱动, 无需利用目标 语音对应的说话视频作为中间媒介, 实现了端到 端的语音驱动图像, 提高了语音驱动图像的效 率。 权利要求书2页 说明书13页 附图3页 CN 115393945 A 2022.11.25 CN 115393945 A 1.一种基于语音的图像驱动方法, 其特 征在于, 包括: 预测目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据; 所述口唇偏 移数据表示发出所述目标语音时的口唇关键点位置相对于静默时的口唇关键点位置的偏 移量; 根据所述目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据, 对待驱 动面部图像的各个面部 关键点进 行位置变换, 得到所述待驱动面部图像的更新后的面部关 键点位置; 基于所述待驱动面部图像的更新后的面部关键点 位置, 生成 驱动后的面部图像。 2.根据权利要求1所述的方法, 其特征在于, 预测目标语音对应的口唇偏移数据和所述 目标语音对应的头 部运动数据, 包括: 预测目标语音中的各个 语音帧对应的 口唇偏移量和各个 语音帧对应的头 部运动参数; 将各个语音帧对应的口唇偏移量组合得到所述目标语音对应的口唇偏移数据, 将各个 语音帧对应的头 部运动参数组合得到所述目标语音对应的头 部运动数据。 3.根据权利要求2所述的方法, 其特征在于, 预测目标语音中的语音帧对应的口唇偏移 量和语音帧对应的头 部运动参数, 包括: 将语音帧输入到预先训练的参数预测模型中, 得到所述语音帧对应的口唇偏移量和所 述语音帧对应的头 部运动参数; 其中, 所述参数预测模型基于第 一样本语音以及所述第 一样本语音对应的样本标签训 练得到, 所述第一样本语音对应的样本标签, 包括所述第一样本语音对应的头部运动参数, 以及与所述头 部运动参数解耦的 口唇偏移量。 4.根据权利要求1所述的方法, 其特征在于, 根据 所述目标语音对应的口唇偏移数据和 所述目标语音对应的头部运动数据, 对待驱动面部图像的各个面部关键点进行位置变换, 得到所述待驱动面部图像的更新后的面部关键点 位置, 包括: 根据所述目标语音对应的口唇偏移数据, 对待驱动 面部图像的口唇区域关键点进行位 置偏移处 理, 确定所述待驱动面部图像的偏移后的面部关键点 位置; 基于所述目标语音对应的头部运动数据, 对所述待驱动面部图像的偏移后的面部关键 点进行位置 仿射变换, 得到所述待驱动面部图像的更新后的面部关键点 位置。 5.根据权利要求1所述的方法, 其特征在于, 基于所述待驱动 面部图像的更新后的面部 关键点位置, 生成 驱动后的面部图像, 包括: 对所述待驱动面部图像进行人脸前景分割, 得到待驱动面部图像的人脸前景区域和人 脸背景区域; 基于所述待驱动 面部图像的更新后的面部关键点位置, 对所述待驱动面部图像的人脸 前景区域进行关键点 位置调整, 得到位置调整后的人脸前 景区域; 将位置调整后的人脸前景区域与所述人脸背景区域进行拼接, 得到驱动后的面部图 像。 6.根据权利要求5所述的方法, 其特征在于, 基于所述待驱动 面部图像的更新后的面部 关键点位置, 对所述待驱动面部图像的人脸前景区域进行关键点位置调整, 得到位置调整 后的人脸前 景区域之后, 所述方法还 包括: 对位置调整后的人脸前景区域中的变形异常区域进行变形优化调整, 得到位置调 整并权 利 要 求 书 1/2 页 2 CN 115393945 A 2且变形优化调整后的人脸前 景区域。 7.根据权利要求6所述的方法, 其特征在于, 基于所述待驱动 面部图像的更新后的面部 关键点位置, 对所述待驱动面部图像的人脸前景区域进行关键点位置调整, 得到位置调整 后的人脸前景区域, 以及, 对位置调整后的人脸前景区域中的变形异常区域进行变形优化 调整, 得到位置调整并且变形优化调整后的人脸前 景区域, 包括: 将所述待驱动面部图像的人脸前景区域和所述待驱动面部图像的更新后的面部关键 点位置输入到预先训练的图像生成网络中, 以使 所述图像生成网络基于所述待驱动面部图 像的更新后的面部 关键点位置, 对所述待驱动面部图像的人脸前景区域进 行关键点位置调 整, 得到位置调整后的人脸前景区域, 以及, 对位置调整后的人脸前景区域中的变形异常区 域进行变形优化调整, 得到位置调整并且变形优化调整后的人脸前 景区域。 8.一种基于语音的图像驱动装置, 其特 征在于, 包括: 预测模块, 用于预测目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数 据; 所述口唇偏移数据表示 发出所述目标语音时的口唇关键点位置相对于静默时的口唇关 键点位置的偏移量; 关键点位置变换模块, 用于根据所述目标语音对应的口唇偏移数据和所述目标语音对 应的头部运动数据, 对待驱动面部图像的各个面部关键点进行位置变换, 得到所述待驱动 面部图像的更新后的面部关键点 位置; 面部图像驱动模块, 用于基于所述待驱动面部 图像的更新后的面部关键点位置, 生成 驱动后的面部图像。 9.一种电子设备, 其特 征在于, 包括: 存 储器和处 理器; 其中, 所述存 储器与所述处 理器连接, 用于存 储程序; 所述处理器, 用于通过运行所述存储器中的程序, 实现如权利要求1至7中任一项所述 的基于语音的图像驱动方法。 10.一种存储介质, 其特征在于, 所述存储介质上存储有计算机程序, 所述计算机程序 被处理器执行时, 实现如权利要求1至7中任一项所述的基于语音的图像驱动方法。权 利 要 求 书 2/2 页 3 CN 115393945 A 3

PDF文档 专利 基于语音的图像驱动方法、装置、电子设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于语音的图像驱动方法、装置、电子设备及存储介质 第 1 页 专利 基于语音的图像驱动方法、装置、电子设备及存储介质 第 2 页 专利 基于语音的图像驱动方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:44上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。