(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210035594.4
(22)申请日 2022.01.12
(71)申请人 平安普惠企业管理有限公司
地址 518000 广东省深圳市前海深港合作
区前湾一路1号A栋201室
(72)发明人 颜青玲
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
代理人 刘燕
(51)Int.Cl.
G10L 17/02(2013.01)
G10L 17/18(2013.01)
G10L 15/26(2006.01)
G10L 15/16(2006.01)
G10L 15/18(2013.01)G10L 25/51(2013.01)
G10L 15/00(2013.01)
G10L 25/63(2013.01)
G06F 40/30(2020.01)
G06V 40/16(2022.01)
G06N 20/00(2019.01)
(54)发明名称
基于音频识别的个体信息确认方法、 装置、
设备及介质
(57)摘要
本发明实施例涉及人工智能领域, 公开了一
种基于音频识别的个体信息确认方法、 装置、 设
备及介质, 该方法包括: 获取音频样本集, 音频样
本集中包括多个个体的不同频率的音频波形图;
将音频样本集输入预训练的语义识别模型, 得到
每个音频波形图对应的文本信息; 将每个音 频波
形图以及每个音频波形图对应的文本信息输入
预训练的机器学习模型, 预测得到每个个体对应
的一种或多种说话方式的概率; 确定每个个体的
最大概率值对应的目标说话方式, 并确定与目标
说话方式对应的个体信息, 以实现通过识别音 频
波形图来确认个体信息, 有助于提高确认个体信
息的准确性、 灵活性和有效性。 本发明涉及区块
链技术, 可将数据写入区块链中, 以用于数据取
证等场景。
权利要求书3页 说明书14页 附图2页
CN 114400008 A
2022.04.26
CN 114400008 A
1.一种基于音频识别的个 体信息确认方法, 其特 征在于, 包括:
获取音频样本集, 所述音频样本集中包括多个 个体的不同频率的音频波形图;
将所述音频样本集输入预训练 的语义识别模型, 对所述音频样本集中的每个音频波形
图进行语义识别, 得到所述每 个音频波形图对应的文本信息;
将所述每个音频波形图以及所述每个音频波形图对应的文本信息输入预训练的机器
学习模型, 预测得到所述每 个个体对应的一种或多种说话方式的概 率;
根据所述每个个体对应的一种或多种说话方式的概率确定所述每个个体的最大概率
值对应的目标说话方式;
通过预训练的人脸特征预测模型预测所述目标说话方式对应的人脸特征信 息, 并从第
一预设数据库中确定与所述人脸特 征信息对应的个 体信息。
2.根据权利要求1所述的方法, 其特征在于, 所述将所述每个音频波形图以及所述每个
音频波形图对应的文本信息输入预训练的机器学习模型, 预测得到所述每个个体对应的一
种或多种说话方式的概 率, 包括:
根据所述每个音频波形图以及所述每个音频波形图对应的文本信 息, 确定所述每个音
频波形图与文本信息的映射关系;
将所述每个音频波形图与文本信 息的映射关系输入所述预训练 的机器学习模型, 得到
所述每个个体对应的说话次数以及每次说话的说话方式;
根据所述每个个体对应的说话次数以及每次说话的说话方式确定所述每个个体对应
的一种或多种说话方式 中每种说话方式的总次数;
根据所述每个个体对应的说话 次数以及每种说话方式的总次数, 确定所述每个个体对
应的每种说话方式的概 率。
3.根据权利要求2所述的方法, 其特征在于, 所述将所述每个音频波形图与文本信 息的
映射关系输入预训练的机器学习模型, 得到所述每个个体对应的说话次数以及每次说话的
说话方式, 包括:
将所述每个音频波形图输入预训练 的音频特征提取模型, 提取得到与 所述每个音频波
形图对应的音频特征信息, 所述音 频特征信息包括语音 特征信息、 语调特征信息、 语速特征
信息、 停顿 特征信息中的一种或多种;
将所述每个音频波形图对应的音频特征信息与文本信息的映射关系输入所述预训练
的机器学习模型, 得到所述每 个个体对应的说话次数以及每次说话的说话方式。
4.根据权利要求3所述的方法, 其特征在于, 所述将每个音频波形图对应的音频特征信
息与文本信息的映射关系输入所述预训练的机器学习模型, 得到所述每个个体对应的说话
次数以及每次说话的说话方式, 包括:
将所述每个音频波形图对应的音频特征信息与文本信息的映射关系输入所述预训练
的机器学习模型, 预测得到所述每 个音频波形图对应的说话方式;
根据预设的个体与音频波形图的对应关系, 确定与所述每个个体对应的一个或多个音
频波形图;
根据所述每个个体对应的一个或多个音频波形图以及所述每个音频波形图对应的说
话方式, 确定所述每 个个体的说话次数以及每次说话的说话方式。
5.根据权利要求1所述的方法, 其特征在于, 所述通过预训练的人脸特征预测模型预测权 利 要 求 书 1/3 页
2
CN 114400008 A
2所述目标说话方式对应的人脸特征信息, 并从第一预设数据库中确定与所述人脸特征信息
对应的个 体信息, 包括:
将所述目标说话方式输入预训练的说话方式特征提取模型, 提取得到与所述目标说话
方式对应的说话方式特 征信息;
通过预训练的人脸特征预测模型对所述说话方式特征信 息进行人脸特征转化, 得到与
所述说话方式特 征信息对应的人脸特 征信息;
根据所述人脸特征信息从第一预设数据库中确定与所述人脸特征信息对应的个体信
息, 所述第一预设数据库中包括一个或多个个体信息以及各个个体信息与人脸特征信息的
对应关系。
6.根据权利要求5所述的方法, 其特征在于, 所述根据所述人脸特征信 息从第一预设数
据库中确定与所述人脸特 征信息对应的个 体信息, 包括:
根据预设的距离向量算法计算与所述说话方式特征信息对应的人脸特征信息与所述
第一预设数据库中的各个人脸特 征信息的距离向量;
从所述第一预设数据库中确定最小距离向量对应的人脸特征信息为与所述说话方式
特征信息对应的人脸特 征信息;
根据所述第一预设数据库中人脸特征信息与个体信息的对应关系确定与所述最小距
离向量的人脸特 征信息对应的个 体信息为与所述目标说话方式对应的个 体信息。
7.根据权利要求5所述的方法, 其特征在于, 所述通过预训练的人脸特征预测模型对所
述说话方式特征信息进行人脸特征转化, 得到与所述说话方式特征信息对应的人脸特征信
息之前, 还 包括:
获取样本训练集, 所述样本训练集包括多个样本训练数据, 每个样本训练数据包括说
话方式样本数据和人脸特 征样本数据的对应关系;
将所述样本训练集输入预设的神经网络模型, 得到各个样本数据对应的预测人脸特征
信息;
根据各个预测人脸特征信息与各个样本数据中各个说话方式样本数据对应的人脸特
征样本数据之间的距离向量, 计算损失函数值;
当所述损失函数值位于预设阈值范围内时, 确定得到所述预训练的人脸特征预测模
型。
8.一种基于音频识别的个 体信息确认装置, 其特 征在于, 包括:
获取单元, 用于获取音频样本集, 所述音频样本集中包括多个个体的不同频率的音频
波形图;
识别单元, 用于将所述音频样本集输入预训练的语义识别模型, 对所述音频样本集中
的每个音频波形图进行语义识别, 得到所述每 个音频波形图对应的文本信息;
预测单元, 用于将所述每个音频波形图以及所述每个音频波形图对应的文本信 息输入
预训练的机器学习模型, 预测得到所述每 个个体对应的一种或多种说话方式的概 率;
第一确定单元, 用于根据所述每个个体对应的一种或多种说话方式的概率确定所述每
个个体的最大概 率值对应的目标说话方式;
第二确定单元, 用于通过预训练的人脸特征预测模型预测所述目标说话方式对应的人
脸特征信息, 并从第一预设数据库中确定与所述人脸特 征信息对应的个 体信息。权 利 要 求 书 2/3 页
3
CN 114400008 A
3
专利 基于音频识别的个体信息确认方法、装置、设备及介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:56上传分享