(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211145790.3
(22)申请日 2022.09.20
(71)申请人 西安电子科技大 学广州研究院
地址 510000 广东省广州市黄埔区中新知
识城海丝中心B5、 B6、 B7栋
(72)发明人 梁雪峰 黄奕洋 邹帅
(74)专利代理 机构 广东省中源正拓专利代理事
务所(普通 合伙) 44748
专利代理师 朱靖华
(51)Int.Cl.
G06V 40/16(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)G06V 20/40(2022.01)
(54)发明名称
一种未见过说话人适用的唇语识别方法
(57)摘要
本发明公开了一种未见过说话人适用的唇
语识别方法, 其涉及唇语识别技术领域。 本发明
包括如下步骤: S1、 数据预处理: 对视频或抽帧后
得到的图像进行人脸识别, 裁剪包含嘴唇的区
域; S2、 模型训练: 建模人脸唇部先验知识, 基于
先验训练模型针对输入说话人样本进行唇语识
别, 说话人分类模块帮助唇语中间特征转化为说
话人无关的唇语鲁棒特征, 得到的鲁棒特征映射
为文本。 S3、 模型部署: 输入视频序列, 先验知识
模块提供输入说话人特征表达, 并指导动态特征
提取器动态获取、 组合基本特征并进行唇语识
别。 本方法通过动态调整网络参数的方式, 能够
提升简单的端到端神经网络对陌生/未见过说话
人的特征提取能力, 极大地扩展了唇语识别神经
网络的泛化能力。
权利要求书1页 说明书5页 附图3页
CN 115497136 A
2022.12.20
CN 115497136 A
1.一种未 见过说话人适用的唇语识别方法, 其特 征在于, 包括如下步骤:
S1、 数据预处 理:
对视频或抽帧后得到的图像进行 人脸识别, 裁 剪包含嘴唇的区域;
S2、 模型训练:
S21、 对人脸/嘴唇数据进行先验知识建模, 通过无监督、 自监督学习算法更新模块参
数, 获取不同说话人的特 征表达及相关 关系;
S22、 将视频数据送入唇语识别模块, 其包含 的动态特征提取器根据S21中获取的输入
说话人表征动态获取并组合基本特 征, 训练神经网络对输入说话人进行 唇语识别;
S23、 将唇语识别中间特征送入说话人分类模块, 在对抗学习策略下, 该模块区分属于
不同说话人的中间特征, 同时鼓励唇语识别模块忽略说话人个性特征只学习唇语相关特
征,训练阶段 唇语识别和说话人分类模块交替更新 参数;
S3、 模型部署:
输入陌生/未见说话人(非训练数据)的视频序列, 先验知识模块提供输入说话人特征
表达, 并指导动态特 征提取器动态获取、 组合基本特 征并进行 唇语识别。
2.根据权利要求1所述的一种未见过说话人适用的唇语识别方法,其特征在于, 重复
S22‑S23直到学习率衰减后连续多轮训练内损失函数值 不再降低, 即模型收敛。
3.根据权利要求1所述的一种未见过说话人适用的唇语识别方法,其特征在于, 所述模
型包括先验知识建模 模块、 唇语识别模块和说话人分类模块;
所述先验知识建模 模块用于获取不同说话人的特 征表达及相关 关系;
所述唇语识别模块用于将唇语特 征转化为文本输出;
所述说话人分类模块用于区分不同说话人的中间特征, 鼓励唇语识别模块忽略说话人
个性特征只学习唇语相关特 征。
4.根据权利要求3所述的一种未见过说话人适用的唇语识别方法,其特征在于, 所述唇
语识别模块内含动态特 征提取器, 所述动态特 征提取器用于动态获取并组合基本特 征。
5.根据权利要求3所述的一种未 见过说话人适用的唇语识别方法,其特 征在于,
模型输入输出关系具体包括如下步骤:
待识别说话人的人脸/唇部图片 →先验知识建模 模块→说话人特征表达;
待识别视频序列&待识别说话人的特征表达 →唇语识别模块(动态特征提取器) →唇语
识别模块(其 余部分)→输出文本;
待识别视频序列&待识别说话人的特征表达 →唇语识别模块(中间特征) →说话人分类
模块→进行对抗学习。权 利 要 求 书 1/1 页
2
CN 115497136 A
2一种未见过说话人适用的唇语 识别方法
技术领域
[0001]本发明涉及唇语识别技术领域, 具体涉及一种未见过说话人适用的唇语识别方
法。
背景技术
[0002]唇语识别是一种视觉语言识别技术, 其主要利用视频中的唇部运动信息, 结合语
言先验知识和上下文信息的语言信息获取技术, 常在无法获得有效音频或文字信息的情况
下使用。 它的应用价值极高, 例如: 视频理解、 安防领域、 军用设备、 人机交互和言语障碍患
者治疗等场景中。
[0003]在规模受限的数据集上, 传统唇语识别方法只能识别模型训练时使用的说话人或
特别相似的说话人的唇语视觉特征, 对于陌生/未见说话人无法正确获取其唇部 关键信息,
而收集真实场景下 的海量唇语数据是不现实的。 本方法利用说话人间脸部、 唇部相关关系
的先验知识对神经网络特征提取器提供指导, 有针对性地为当前输入神经网络的说话人适
配高效的特征提取方式, 并在 对抗学习策略的辅助下使神经网络能够提取丰富的不区分说
话人的唇语特征, 使得所申请方法能扩展到陌生/未见说话人数据上, 极大地缓解了对训练
集规模的依赖 。
发明内容
[0004]本发明的目的在于提供一种未见过说话人适用的唇语识别方法, 解决以下技术问
题:
[0005]现有的唇语识别方法只能识别模型训练时使用的说话人或特别相似的说话人的
唇语视觉特征, 无法正确获取陌生/未 见说话人的唇部关键信息的缺 点。
[0006]本发明的目的可以通过以下技 术方案实现:
[0007]一种未见过说话人适用的唇语识别方法, 包括如下步骤:
[0008]S1、 数据预处 理:
[0009]对视频或抽帧后得到的图像进行 人脸识别, 裁 剪包含嘴唇的区域;
[0010]S2、 模型训练:
[0011]S21、 对人脸/嘴唇数据进行先验知识建模, 通过无监督、 自监督学习算法更新模块
参数, 获取不同说话人的特 征表达及相关 关系;
[0012]S22、 将视频数据送入唇语识别模块, 其包含的动态特征提取器根据S21中获取的
输入说话人表征动态获取并组合基本特 征, 训练神经网络对输入说话人进行 唇语识别;
[0013]S23、 将唇语识别中间特征送入说话人分类模块, 在对抗学习策略下, 该模块区分
属于不同说话人的中间特征, 同时鼓励唇语识别模块忽略说话人个性特征只学习唇语相关
特征,训练阶段 唇语识别和说话人分类模块交替更新 参数;
[0014]S3、 模型部署:
[0015]输入陌生/未见说话人(非训练数据)的视频序列, 先验知识模块提供输入说话人说 明 书 1/5 页
3
CN 115497136 A
3
专利 一种未见过说话人适用的唇语识别方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:58:54上传分享