专利 语音消息生成方法和装置、计算机设备、存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210057040.4 (22)申请日 2022.01.18 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人郑喜民　贾云舒　舒畅　陈又新　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 代理人廖慧贤 (51)Int.Cl. G10L 15/26(2006.01) G10L 15/25(2013.01) G10L 25/30(2013.01) G10L 25/63(2013.01)G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/242(2020.01) G06F 40/216(2020.01) (54)发明名称语音消息生成方法和装置、计算机设备、存储介质 (57)摘要本实施例提供一种基于表情识别的语音消息生成方法和装置、计算机设备、存储介质，属于人工智能技术领域。该基于表情识别的语音消息生成方法包括：获取语音数据及其对应的面部图像，对语音数据进行语音识别得到文本消息，并对面部图像进行表情识别得到表情消息；将文本消息和表情消息输入至第一模型，由第一模型根据文本消息和表情消息得到回答文本消息，最后对回答文本消息进行语音转换，得到对应的回答语音消息。本申请实施例将面部图像加入到聊天机器人中，通过对面部图像的识别，能够更加精准判断出当前的情景，并由第一模型根据文本消息和表情消息得到回答文本消息，且将回答文本消息转换成语音回复消息，进而提高语音回复消息的准确率。权利要求书2页说明书15页附图5页 CN 114400005 A 2022.04.26 CN 114400005 A 1.一种基于表情识别的语音消息生成方法，其特征在于，包括：获取语音数据及其对应的面部图像：对所述语音数据进行语音识别得到文本消息；对所述面部图像进行表情识别得到表情消息：将所述文本消息和所述表情消息输入至第一模型，所述第一模型根据所述文本消息和所述表情消息得到回答文本消息：对所述回答文本消息进行语音转换，得到对应的回答语音消息。 2.根据权利要求1所述的方法，其特征在于，所述对所述语音数据进行语音识别得到文本消息，包括：对所述语音数据的时域信号进行积分变换得到频域信号；根据所述时域信号和所述频域信号，构建平面空间；通过第一神经网络，在所述平面空间中对所述语音数据进行卷积运算，得到语音序列和序列长度；根据所述序列长度对所述语音序列进行切片，得到多个切片序列；通过第二神经网络对多个所述切片序列进行文本转换，得到所述文本消息。 3.根据权利要求1所述的方法，其特征在于，所述对所述面部图像进行表情识别得到表情消息，包括：通过第三神经网络对所述面部图像进行自注意力筛选，得到变换参数；根据所述变换参数对所述面部图像进行扭曲变换，得到变换图像；通过第四神经网络对所述面部图像和所述变换图像进行表情识别，得到所述表情消息。 4.根据权利要求3所述的方法，其特征在于，所述第四神经网络包括卷积层、全连接层和分类器；所述通过第四神经网络对所述面部图像和所述变换图像进行表情识别，得到表情消息，包括：通过所述卷积层对所述面部图像和所述变换图像进行特征提取，得到多个图像特征向量；通过所述全连接层对多个所述图像特征向量进行拼接，得到图像拼接向量；通过所述分类器对所述图像拼接向量进行表情分类，得到所述表情消息。 5.根据权利要求1所述的方法，其特征在于，在所述将所述文本消息和所述表情消息输入至第一模型，所述第一模型根据所述文本消息和所述表情消息得到回答文本消息之前，包括：获取消息数据集；其中，所述消息数据集包括多个问题样本数据、多个预设表情和多个回答样本数据，所述问题样本数据和所述预设表情一一对应以形成绑定组，每个所述绑定组与所述回答样本数据具有映射关系；对多个所述问题样本数据进行分词，得到多个问题分词数据；对多个所述回答样本数据进行分词，得到多个回答分词数据；获取第一原始模型；根据多个所述问题分词数据、多个所述回答分词数据和多个所述预设表情对所述第一原始模型进行训练，得到所述第一模型。权　利　要　求　书 1/2 页 2 CN 114400005 A 26.根据权利要求5所述的方法，其特征在于，所述第一原始模型包括编码器和解码器；所述根据多个所述问题分词数据、多个所述回答分词数据和多个所述预设表情对所述第一原始模型进行训练，得到第一模型，包括：将多个所述问题分词数据和多个所述回答分词数据输入至所述编码器进行第一编码，得到样本编码数据；将多个所述预设表情输入至所述编码器进行第二编码，得到表情编码数据；对所述样本编码数据和所述表情编码数据进行拼接，得到样本拼接数据；将所述样本拼接数据输入至所述解码器进行解码，得到样本解码数据；根据所述样本拼接数据和所述样本解码数据，计算所述第一原始模型的损失函数，得到损失值；根据所述损失值更新所述第一原始模型，得到第一模型。 7.根据权利要求1至6任一项所述的方法，其特征在于，所述对所述回答文本消息进行语音转换，得到对应的回答语音消息，包括：对所述回答文本消息进行语音转换，得到初步语音消息；对所述初步语音消息进行变换，得到声谱图；提取所述声谱图的音频特征；通过第五神经网络模型对所述音频特征进行解码，得到每一帧对应的音频数据；将所述音频数据进行合成处理，得到对应的回答语音消息。 8.一种基于表情识别的语音消息生成装置，其特征在于，包括：数据采集模块，用于获取语音数据及其对应的面部图像；语音识别模块，用于对所述语音数据进行语音识别得到文本消息；表情识别模块，用于对所述面部图像进行表情识别得到表情消息；文本消息获取模块，用于将所述文本消息和所述表情消息输入至第一模型，所述第一模型根据所述文本消息和所述表情消息得到回答文本消息；语音消息获取模块，用于对所述回答文本消息进行语音转换，得到对应的回答语音消息。 9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，其中，所述存储器中存储有程序，所述程序被所述处理器执行时所述处理器用于执行：如权利要求1至7中任一项所述的方法。 10.一种存储介质，所述存储介质为计算机可读存储介质，其特征在于，所述计算机可读存储有计算机程序，在所述计算机程序被计算机执行时，所述计算机用于执行：如权利要求1至7中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114400005 A 3

专利 语音消息生成方法和装置、计算机设备、存储介质

专利语音消息生成方法和装置、计算机设备、存储介质