专利 一种虚拟直播形象训练系统及方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210895681.7 (22)申请日 2022.07.28 (65)同一申请的已公布的文献号申请公布号 CN 114998977 A (43)申请公布日 2022.09.02 (73)专利权人广东玄润数字信息科技股份有限公司地址 510000 广东省广州市黄埔区科学大道286号901-9房 (72)发明人王丽玲　 (74)专利代理机构广州本诺知识产权代理事务所(普通合伙) 44574 专利代理师王鹏程 (51)Int.Cl. G06V 40/16(2022.01)G06T 13/00(2011.01) G06V 10/44(2022.01) G06V 10/74(2022.01) H04N 21/431(2011.01) H04N 21/4788(2011.01) H04N 21/2187(2011.01) 审查员龚红丽 (54)发明名称一种虚拟直播形象训练系统及方法 (57)摘要本发明公开了一种虚拟直播形象训练系统及方法，涉及网络直播技术领域，包括：特征采集模块，特征采集模块用于提取目标脸部特征点以及目标声音信息；模型匹配模块，模型匹配模块用于根据脸部特征点与虚拟直播形象脸部控制点进行特征点以及音色匹配；模型训练模块，模型训练模块用于构建目标与虚拟形象之间的控制映射逻辑；交互模块，交互模块用于进行虚拟形象控制。本发明的优点在于：通过模型训练模块对真人目标进行标准训练表情的脸部特征点采集，并对虚拟直播形象进行对应表情调节，根据调节数据进行目标脸部特征点与虚拟直播形象的面部控制点的映射逻辑调整，使虚拟直播形象的面部表情可以根据真人目标的脸部表情进行更加准确的变化。权利要求书2页说明书6页附图4页 CN 114998977 B 2022.10.21 CN 114998977 B 1.一种虚拟直播形象训练系统，其特征在于，包括：特征采集模块，所述特征采集模块用于响应输入，获取目标图像视频，并根据目标图像视频提取目标脸部特征点以及目标声音信息；模型匹配模块，所述模型匹配模块用于根据特征采集模块提取的脸部特征点与虚拟直播形象脸部控制点进行匹配，同时根据目标声音信息匹配虚拟形象音色并获取音色匹配调整数据；模型训练模块，所述模型训练模块用于根据目标表情风格特征对虚拟直播形象进行训练，构建目标与虚拟形象之间的控制映射逻辑；交互模块，所述交互模块用于采集目标的表情特征以及姿态特征，并根据模型训练模块构建的控制映射逻辑进行虚拟形象控制；其中，所述模型训练模块包括：特征点映射单元，所述特征点映射单元用于构建目标脸部特征点与虚拟直播形象的面部控制点之间的初始映射逻辑，并进行映射逻辑的更新；训练反馈单元，所述训练反馈单元用于进行收集训练过程中的虚拟形象的调节数据；映射重建单元，所述映射重建单元用于根据训练反馈单元收集到的虚拟形象的调节数据进行对应目标脸部特征点与虚拟直播形象的面部控制点的映射逻辑调整，并将调整后的映射逻辑反馈至特征点映射单元进行更新；所述交互模块包括：表情采集单元，所述表情采集单元用于采集直播时目标的面部特征点的位移变化，并通过映射逻辑控制虚拟直播形象的面部控制点进行对应的位移变化，使虚拟直播形象表情随目标的面部表情进行变化；语音采集单元，所述语音采集单元用于采集直播时目标的语音数据，并通过目标音色匹配数据进行转化为直播音色；遮挡匹配单元，所述遮挡匹配单元用于当目标的脸部特征点出现部分被遮挡时通过其余特征点的位移变化，进行预测拟合被遮挡部分的特征点位移变化，对虚拟直播形象进行拟合控制。 2.根据权利要求1所述一种虚拟直播形象训练系统，其特征在于，所述特征采集模块包括：图像采集单元，所述图像采集单元用于接收用户输入的目标图像视频，所述目标图像视频为实时采集图像视频或预先拍摄的图像视频；特征点提取单元，所述特征点提取单元用于对目标图像视频进行分隔抽帧，获取若干包含目标真实面部的图像，并对目标真实面部进行分隔识别，获取目标的脸部特征点；声音采集单元，所述声音采集单元用于从目标图像视频中抽取目标语音音频，并对目标语音音频进行音色分析，获取目标音色数据。 3.根据权利要求2所述一种虚拟直播形象训练系统，其特征在于，所述脸部特征点包括眼部边缘特征点、上唇边缘特征点、下唇边缘特征点、眉部边缘特征点和脸颊网格化特征点。 4.根据权利要求1所述一种虚拟直播形象训练系统，其特征在于，所述模型匹配模块包括：权　利　要　求　书 1/2 页 2 CN 114998977 B 2模型获取单元，所述模型获取单元用于获取虚拟直播形象，并对所述虚拟直播形象进行面部控制点提取；特征点匹配单元，所述特征点匹配单元用于将目标脸部特征点与虚拟直播形象的面部控制点进行对应拟合；音色匹配单元，所述音色匹配单元用于将目标音色数据与虚拟直播形象的直播音色进行拟合，获取目标音色匹配数据。 5.一种虚拟直播形象训练方法，适用于如权利要求1 ‑4任一项所述的虚拟直播形象训练系统，其特征在于，包括如下步骤：特征点采集，通过直接输入或者实时采集获取目标图像视频，并对目标图像视频进行分隔抽帧，获取若干包含目标真实面部的图像，对所述目标真实面部进行分隔识别，获取目标脸部特征点；声音采集，从目标图像视频中抽取目标语音音频，并对目标语音音频进行音色分析，获取目标音色数据；模型获取，获取虚拟直播形象模型，同时对所述虚拟直播形象进行面部控制点提取；控制匹配，将提取的目标脸部特征点与面部控制点进行对应拟合；音色匹配，将目标音色数据与虚拟直播形象的直播音色进行拟合，获取目标音色匹配数据；初始映射逻辑构建，构建目标脸部特征点与虚拟直播形象的面部控制点之间的初始映射逻辑；控制训练，通过表情采集单元采集目标做出的标准训练表情，并通过映射逻辑生成虚拟直播形象的面部表情，并对虚拟直播形象的面部表情进行调整，使其更加贴合目标脸部表情，同时更新目标脸部特征点与虚拟直播形象的面部控制点之间的映射逻辑；直播，通过交互模块采集目标的脸部表情和语音，并根据目标脸部特征点与虚拟直播形象的面部控制点之间的映射逻辑和目标音色匹配数据控制虚拟直播形象进行直播。 6.根据权利要求5所述一种虚拟直播形象训练方法，其特征在于，所述目标脸部特征点包括若干个脸部控制点和若干个脸部随动点，所述脸部控制点至少与两个所述脸部随动点存在联动关系，所述脸部控制点与虚拟直播形象的面部控制点之间一一对应。 7.根据权利要求6所述一种虚拟直播形象训练方法，其特征在于，所述直播过程中，若目标的面部特征点出现部分被遮挡时，通过其余特征点的位移变化，进行预测拟合被遮挡部分的特征点位移变化，对虚拟直播形象进行拟合控制。 8.根据权利要求7所述一种虚拟直播形象训练方法，其特征在于：所述目标的面部特征点出现部分被遮挡时，则通过其余特征点的位移变化，进行预测拟合被遮挡部分的特征点位移变化，对虚拟直播形象进行拟合控制的具体步骤包括：判断被遮挡的脸部特征点是否为脸部控制点，若为是，则通过与脸部控制点存在联动关系的脸部随动点的位移变化，进行被遮挡的所述脸部控制点的位置拟合，并通过拟合的脸部控制点的位置进行控制虚拟直播形象进行直播，若为否，则通过脸部控制点继续控制虚拟直播形象进行直播。权　利　要　求　书 2/2 页 3 CN 114998977 B 3

专利 一种虚拟直播形象训练系统及方法

专利一种虚拟直播形象训练系统及方法