专利一种未见过说话人适用的唇语识别方法 -在线下载 -AI解读-standardlibrary.site

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211145790.3 (22)申请日 2022.09.20 (71)申请人西安电子科技大学广州研究院地址 510000 广东省广州市黄埔区中新知识城海丝中心B5、 B6、 B7栋 (72)发明人梁雪峰　黄奕洋　邹帅　 (74)专利代理机构广东省中源正拓专利代理事务所(普通合伙) 44748 专利代理师朱靖华 (51)Int.Cl. G06V 40/16(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/774(2022.01) G06V 10/82(2022.01)G06V 20/40(2022.01) (54)发明名称一种未见过说话人适用的唇语识别方法 (57)摘要本发明公开了一种未见过说话人适用的唇语识别方法，其涉及唇语识别技术领域。本发明包括如下步骤： S1、数据预处理：对视频或抽帧后得到的图像进行人脸识别，裁剪包含嘴唇的区域； S2、模型训练：建模人脸唇部先验知识，基于先验训练模型针对输入说话人样本进行唇语识别，说话人分类模块帮助唇语中间特征转化为说话人无关的唇语鲁棒特征，得到的鲁棒特征映射为文本。 S3、模型部署：输入视频序列，先验知识模块提供输入说话人特征表达，并指导动态特征提取器动态获取、组合基本特征并进行唇语识别。本方法通过动态调整网络参数的方式，能够提升简单的端到端神经网络对陌生/未见过说话人的特征提取能力，极大地扩展了唇语识别神经网络的泛化能力。权利要求书1页说明书5页附图3页 CN 115497136 A 2022.12.20 CN 115497136 A 1.一种未见过说话人适用的唇语识别方法，其特征在于，包括如下步骤： S1、数据预处理：对视频或抽帧后得到的图像进行人脸识别，裁剪包含嘴唇的区域； S2、模型训练： S21、对人脸/嘴唇数据进行先验知识建模，通过无监督、自监督学习算法更新模块参数，获取不同说话人的特征表达及相关关系； S22、将视频数据送入唇语识别模块，其包含的动态特征提取器根据S21中获取的输入说话人表征动态获取并组合基本特征，训练神经网络对输入说话人进行唇语识别； S23、将唇语识别中间特征送入说话人分类模块，在对抗学习策略下，该模块区分属于不同说话人的中间特征，同时鼓励唇语识别模块忽略说话人个性特征只学习唇语相关特征,训练阶段唇语识别和说话人分类模块交替更新参数； S3、模型部署：输入陌生/未见说话人(非训练数据)的视频序列，先验知识模块提供输入说话人特征表达，并指导动态特征提取器动态获取、组合基本特征并进行唇语识别。 2.根据权利要求1所述的一种未见过说话人适用的唇语识别方法,其特征在于，重复 S22‑S23直到学习率衰减后连续多轮训练内损失函数值不再降低，即模型收敛。 3.根据权利要求1所述的一种未见过说话人适用的唇语识别方法,其特征在于，所述模型包括先验知识建模模块、唇语识别模块和说话人分类模块；所述先验知识建模模块用于获取不同说话人的特征表达及相关关系；所述唇语识别模块用于将唇语特征转化为文本输出；所述说话人分类模块用于区分不同说话人的中间特征，鼓励唇语识别模块忽略说话人个性特征只学习唇语相关特征。 4.根据权利要求3所述的一种未见过说话人适用的唇语识别方法,其特征在于，所述唇语识别模块内含动态特征提取器，所述动态特征提取器用于动态获取并组合基本特征。 5.根据权利要求3所述的一种未见过说话人适用的唇语识别方法,其特征在于，模型输入输出关系具体包括如下步骤：待识别说话人的人脸/唇部图片 →先验知识建模模块→说话人特征表达；待识别视频序列&待识别说话人的特征表达 →唇语识别模块(动态特征提取器) →唇语识别模块(其余部分)→输出文本；待识别视频序列&待识别说话人的特征表达 →唇语识别模块(中间特征) →说话人分类模块→进行对抗学习。权　利　要　求　书 1/1 页 2 CN 115497136 A 2一种未见过说话人适用的唇语识别方法技术领域 [0001]本发明涉及唇语识别技术领域，具体涉及一种未见过说话人适用的唇语识别方法。背景技术 [0002]唇语识别是一种视觉语言识别技术，其主要利用视频中的唇部运动信息，结合语言先验知识和上下文信息的语言信息获取技术，常在无法获得有效音频或文字信息的情况下使用。它的应用价值极高，例如：视频理解、安防领域、军用设备、人机交互和言语障碍患者治疗等场景中。 [0003]在规模受限的数据集上，传统唇语识别方法只能识别模型训练时使用的说话人或特别相似的说话人的唇语视觉特征，对于陌生/未见说话人无法正确获取其唇部关键信息，而收集真实场景下的海量唇语数据是不现实的。本方法利用说话人间脸部、唇部相关关系的先验知识对神经网络特征提取器提供指导，有针对性地为当前输入神经网络的说话人适配高效的特征提取方式，并在对抗学习策略的辅助下使神经网络能够提取丰富的不区分说话人的唇语特征，使得所申请方法能扩展到陌生/未见说话人数据上，极大地缓解了对训练集规模的依赖。发明内容 [0004]本发明的目的在于提供一种未见过说话人适用的唇语识别方法，解决以下技术问题： [0005]现有的唇语识别方法只能识别模型训练时使用的说话人或特别相似的说话人的唇语视觉特征，无法正确获取陌生/未见说话人的唇部关键信息的缺点。 [0006]本发明的目的可以通过以下技术方案实现： [0007]一种未见过说话人适用的唇语识别方法，包括如下步骤： [0008]S1、数据预处理： [0009]对视频或抽帧后得到的图像进行人脸识别，裁剪包含嘴唇的区域； [0010]S2、模型训练： [0011]S21、对人脸/嘴唇数据进行先验知识建模，通过无监督、自监督学习算法更新模块参数，获取不同说话人的特征表达及相关关系； [0012]S22、将视频数据送入唇语识别模块，其包含的动态特征提取器根据S21中获取的输入说话人表征动态获取并组合基本特征，训练神经网络对输入说话人进行唇语识别； [0013]S23、将唇语识别中间特征送入说话人分类模块，在对抗学习策略下，该模块区分属于不同说话人的中间特征，同时鼓励唇语识别模块忽略说话人个性特征只学习唇语相关特征,训练阶段唇语识别和说话人分类模块交替更新参数； [0014]S3、模型部署： [0015]输入陌生/未见说话人(非训练数据)的视频序列，先验知识模块提供输入说话人说　明　书 1/5 页 3 CN 115497136 A 3

专利 一种未见过说话人适用的唇语识别方法

专利一种未见过说话人适用的唇语识别方法