专利 基于音频识别的个体信息确认方法、装置、设备及介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210035594.4 (22)申请日 2022.01.12 (71)申请人平安普惠企业管理有限公司地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室 (72)发明人颜青玲　 (74)专利代理机构广州三环专利商标代理有限公司 44202 代理人刘燕 (51)Int.Cl. G10L 17/02(2013.01) G10L 17/18(2013.01) G10L 15/26(2006.01) G10L 15/16(2006.01) G10L 15/18(2013.01)G10L 25/51(2013.01) G10L 15/00(2013.01) G10L 25/63(2013.01) G06F 40/30(2020.01) G06V 40/16(2022.01) G06N 20/00(2019.01) (54)发明名称基于音频识别的个体信息确认方法、装置、设备及介质 (57)摘要本发明实施例涉及人工智能领域，公开了一种基于音频识别的个体信息确认方法、装置、设备及介质，该方法包括：获取音频样本集，音频样本集中包括多个个体的不同频率的音频波形图；将音频样本集输入预训练的语义识别模型，得到每个音频波形图对应的文本信息；将每个音频波形图以及每个音频波形图对应的文本信息输入预训练的机器学习模型，预测得到每个个体对应的一种或多种说话方式的概率；确定每个个体的最大概率值对应的目标说话方式，并确定与目标说话方式对应的个体信息，以实现通过识别音频波形图来确认个体信息，有助于提高确认个体信息的准确性、灵活性和有效性。本发明涉及区块链技术，可将数据写入区块链中，以用于数据取证等场景。权利要求书3页说明书14页附图2页 CN 114400008 A 2022.04.26 CN 114400008 A 1.一种基于音频识别的个体信息确认方法，其特征在于，包括：获取音频样本集，所述音频样本集中包括多个个体的不同频率的音频波形图；将所述音频样本集输入预训练的语义识别模型，对所述音频样本集中的每个音频波形图进行语义识别，得到所述每个音频波形图对应的文本信息；将所述每个音频波形图以及所述每个音频波形图对应的文本信息输入预训练的机器学习模型，预测得到所述每个个体对应的一种或多种说话方式的概率；根据所述每个个体对应的一种或多种说话方式的概率确定所述每个个体的最大概率值对应的目标说话方式；通过预训练的人脸特征预测模型预测所述目标说话方式对应的人脸特征信息，并从第一预设数据库中确定与所述人脸特征信息对应的个体信息。 2.根据权利要求1所述的方法，其特征在于，所述将所述每个音频波形图以及所述每个音频波形图对应的文本信息输入预训练的机器学习模型，预测得到所述每个个体对应的一种或多种说话方式的概率，包括：根据所述每个音频波形图以及所述每个音频波形图对应的文本信息，确定所述每个音频波形图与文本信息的映射关系；将所述每个音频波形图与文本信息的映射关系输入所述预训练的机器学习模型，得到所述每个个体对应的说话次数以及每次说话的说话方式；根据所述每个个体对应的说话次数以及每次说话的说话方式确定所述每个个体对应的一种或多种说话方式中每种说话方式的总次数；根据所述每个个体对应的说话次数以及每种说话方式的总次数，确定所述每个个体对应的每种说话方式的概率。 3.根据权利要求2所述的方法，其特征在于，所述将所述每个音频波形图与文本信息的映射关系输入预训练的机器学习模型，得到所述每个个体对应的说话次数以及每次说话的说话方式，包括：将所述每个音频波形图输入预训练的音频特征提取模型，提取得到与所述每个音频波形图对应的音频特征信息，所述音频特征信息包括语音特征信息、语调特征信息、语速特征信息、停顿特征信息中的一种或多种；将所述每个音频波形图对应的音频特征信息与文本信息的映射关系输入所述预训练的机器学习模型，得到所述每个个体对应的说话次数以及每次说话的说话方式。 4.根据权利要求3所述的方法，其特征在于，所述将每个音频波形图对应的音频特征信息与文本信息的映射关系输入所述预训练的机器学习模型，得到所述每个个体对应的说话次数以及每次说话的说话方式，包括：将所述每个音频波形图对应的音频特征信息与文本信息的映射关系输入所述预训练的机器学习模型，预测得到所述每个音频波形图对应的说话方式；根据预设的个体与音频波形图的对应关系，确定与所述每个个体对应的一个或多个音频波形图；根据所述每个个体对应的一个或多个音频波形图以及所述每个音频波形图对应的说话方式，确定所述每个个体的说话次数以及每次说话的说话方式。 5.根据权利要求1所述的方法，其特征在于，所述通过预训练的人脸特征预测模型预测权　利　要　求　书 1/3 页 2 CN 114400008 A 2所述目标说话方式对应的人脸特征信息，并从第一预设数据库中确定与所述人脸特征信息对应的个体信息，包括：将所述目标说话方式输入预训练的说话方式特征提取模型，提取得到与所述目标说话方式对应的说话方式特征信息；通过预训练的人脸特征预测模型对所述说话方式特征信息进行人脸特征转化，得到与所述说话方式特征信息对应的人脸特征信息；根据所述人脸特征信息从第一预设数据库中确定与所述人脸特征信息对应的个体信息，所述第一预设数据库中包括一个或多个个体信息以及各个个体信息与人脸特征信息的对应关系。 6.根据权利要求5所述的方法，其特征在于，所述根据所述人脸特征信息从第一预设数据库中确定与所述人脸特征信息对应的个体信息，包括：根据预设的距离向量算法计算与所述说话方式特征信息对应的人脸特征信息与所述第一预设数据库中的各个人脸特征信息的距离向量；从所述第一预设数据库中确定最小距离向量对应的人脸特征信息为与所述说话方式特征信息对应的人脸特征信息；根据所述第一预设数据库中人脸特征信息与个体信息的对应关系确定与所述最小距离向量的人脸特征信息对应的个体信息为与所述目标说话方式对应的个体信息。 7.根据权利要求5所述的方法，其特征在于，所述通过预训练的人脸特征预测模型对所述说话方式特征信息进行人脸特征转化，得到与所述说话方式特征信息对应的人脸特征信息之前，还包括：获取样本训练集，所述样本训练集包括多个样本训练数据，每个样本训练数据包括说话方式样本数据和人脸特征样本数据的对应关系；将所述样本训练集输入预设的神经网络模型，得到各个样本数据对应的预测人脸特征信息；根据各个预测人脸特征信息与各个样本数据中各个说话方式样本数据对应的人脸特征样本数据之间的距离向量，计算损失函数值；当所述损失函数值位于预设阈值范围内时，确定得到所述预训练的人脸特征预测模型。 8.一种基于音频识别的个体信息确认装置，其特征在于，包括：获取单元，用于获取音频样本集，所述音频样本集中包括多个个体的不同频率的音频波形图；识别单元，用于将所述音频样本集输入预训练的语义识别模型，对所述音频样本集中的每个音频波形图进行语义识别，得到所述每个音频波形图对应的文本信息；预测单元，用于将所述每个音频波形图以及所述每个音频波形图对应的文本信息输入预训练的机器学习模型，预测得到所述每个个体对应的一种或多种说话方式的概率；第一确定单元，用于根据所述每个个体对应的一种或多种说话方式的概率确定所述每个个体的最大概率值对应的目标说话方式；第二确定单元，用于通过预训练的人脸特征预测模型预测所述目标说话方式对应的人脸特征信息，并从第一预设数据库中确定与所述人脸特征信息对应的个体信息。权　利　要　求　书 2/3 页 3 CN 114400008 A 3

专利 基于音频识别的个体信息确认方法、装置、设备及介质

专利基于音频识别的个体信息确认方法、装置、设备及介质