专利基于语音的图像驱动方法、装置、电子设备及存储介质 -在线下载 -AI解读-standardlibrary.site

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211327173.5 (22)申请日 2022.10.27 (71)申请人科大讯飞股份有限公司地址 230088 安徽省合肥市高新开发区望江西路666号 (72)发明人方嘉仪　何山　殷兵　刘聪　周良　吴小燕　 (74)专利代理机构北京布瑞知识产权代理有限公司 11505 专利代理师尚文文 (51)Int.Cl. G06V 40/16(2022.01) G06V 40/20(2022.01) G06V 10/22(2022.01) G06V 10/26(2022.01)G06V 10/774(2022.01) G10L 19/04(2013.01) (54)发明名称基于语音的图像驱动方法、装置、电子设备及存储介质 (57)摘要本申请提出一种基于语音的图像驱动方法、装置、电子设备及存储介质，方法包括：预测目标语音对应的口唇偏移数据和目标语音对应的头部运动数据；根据目标语音对应的口唇偏移数据和目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到待驱动面部图像的更新后的面部关键点位置；基于待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像。采用本申请的技术方案，可以直接预测目标语音对应的口唇偏移数据和头部运动数据，然后根据口唇偏移数据和头部运动数据对待驱动面部图像进行驱动，无需利用目标语音对应的说话视频作为中间媒介，实现了端到端的语音驱动图像，提高了语音驱动图像的效率。权利要求书2页说明书13页附图3页 CN 115393945 A 2022.11.25 CN 115393945 A 1.一种基于语音的图像驱动方法，其特征在于，包括：预测目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据；所述口唇偏移数据表示发出所述目标语音时的口唇关键点位置相对于静默时的口唇关键点位置的偏移量；根据所述目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到所述待驱动面部图像的更新后的面部关键点位置；基于所述待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像。 2.根据权利要求1所述的方法，其特征在于，预测目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据，包括：预测目标语音中的各个语音帧对应的口唇偏移量和各个语音帧对应的头部运动参数；将各个语音帧对应的口唇偏移量组合得到所述目标语音对应的口唇偏移数据，将各个语音帧对应的头部运动参数组合得到所述目标语音对应的头部运动数据。 3.根据权利要求2所述的方法，其特征在于，预测目标语音中的语音帧对应的口唇偏移量和语音帧对应的头部运动参数，包括：将语音帧输入到预先训练的参数预测模型中，得到所述语音帧对应的口唇偏移量和所述语音帧对应的头部运动参数；其中，所述参数预测模型基于第一样本语音以及所述第一样本语音对应的样本标签训练得到，所述第一样本语音对应的样本标签，包括所述第一样本语音对应的头部运动参数，以及与所述头部运动参数解耦的口唇偏移量。 4.根据权利要求1所述的方法，其特征在于，根据所述目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到所述待驱动面部图像的更新后的面部关键点位置，包括：根据所述目标语音对应的口唇偏移数据，对待驱动面部图像的口唇区域关键点进行位置偏移处理，确定所述待驱动面部图像的偏移后的面部关键点位置；基于所述目标语音对应的头部运动数据，对所述待驱动面部图像的偏移后的面部关键点进行位置仿射变换，得到所述待驱动面部图像的更新后的面部关键点位置。 5.根据权利要求1所述的方法，其特征在于，基于所述待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像，包括：对所述待驱动面部图像进行人脸前景分割，得到待驱动面部图像的人脸前景区域和人脸背景区域；基于所述待驱动面部图像的更新后的面部关键点位置，对所述待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域；将位置调整后的人脸前景区域与所述人脸背景区域进行拼接，得到驱动后的面部图像。 6.根据权利要求5所述的方法，其特征在于，基于所述待驱动面部图像的更新后的面部关键点位置，对所述待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域之后，所述方法还包括：对位置调整后的人脸前景区域中的变形异常区域进行变形优化调整，得到位置调整并权　利　要　求　书 1/2 页 2 CN 115393945 A 2且变形优化调整后的人脸前景区域。 7.根据权利要求6所述的方法，其特征在于，基于所述待驱动面部图像的更新后的面部关键点位置，对所述待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域，以及，对位置调整后的人脸前景区域中的变形异常区域进行变形优化调整，得到位置调整并且变形优化调整后的人脸前景区域，包括：将所述待驱动面部图像的人脸前景区域和所述待驱动面部图像的更新后的面部关键点位置输入到预先训练的图像生成网络中，以使所述图像生成网络基于所述待驱动面部图像的更新后的面部关键点位置，对所述待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域，以及，对位置调整后的人脸前景区域中的变形异常区域进行变形优化调整，得到位置调整并且变形优化调整后的人脸前景区域。 8.一种基于语音的图像驱动装置，其特征在于，包括：预测模块，用于预测目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据；所述口唇偏移数据表示发出所述目标语音时的口唇关键点位置相对于静默时的口唇关键点位置的偏移量；关键点位置变换模块，用于根据所述目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到所述待驱动面部图像的更新后的面部关键点位置；面部图像驱动模块，用于基于所述待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像。 9.一种电子设备，其特征在于，包括：存储器和处理器；其中，所述存储器与所述处理器连接，用于存储程序；所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至7中任一项所述的基于语音的图像驱动方法。 10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的基于语音的图像驱动方法。权　利　要　求　书 2/2 页 3 CN 115393945 A 3

专利 基于语音的图像驱动方法、装置、电子设备及存储介质

专利基于语音的图像驱动方法、装置、电子设备及存储介质