专利 一种基于声学和文本特征的多模态情感识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210108118.0 (22)申请日 2022.01.28 (71)申请人江苏师范大学地址 221116 江苏省徐州市铜山新区上海路101号 (72)发明人金赟　顾煜　俞佳佳　 (74)专利代理机构南京瑞弘专利商标事务所 (普通合伙) 32249 专利代理师李悦声 (51)Int.Cl. G10L 25/63(2013.01) G10L 25/30(2013.01) G10L 25/03(2013.01) G10L 25/24(2013.01) G06F 40/30(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于声学和文本特征的多模态情感识别方法 (57)摘要本发明提出了一种基于声学和文本特征的多模态情感识别方法适用于语音和文本情感特征的提取。利用OpenSMILE提取输入语音的情感浅层特征，并与Transformer网络学习浅层特征后得到的深层特征进行融合生成多层次的声学特征；再将语音与转录文本进行强制对齐获取停顿信息，然后将语音中的说话停顿信息编码后添加至转录文本，送入分层密集连接DC ‑BERT模型中获取文本特征，再与声学特征融合；通过 BiLSTM网络利用先验知识，获取有效的上下文信息，并通过注意力机制抽取特征中突显情感信息的部分以避免信息冗余，在注意力机制后面添加全局平均池化层代替传统使用的全连接层，最后送入softmax层中进行情感分类。其步骤简单，识别精准，具有广泛的实用价值。权利要求书3页说明书6页附图1页 CN 114446324 A 2022.05.06 CN 114446324 A 1.一种基于声学和文本特征的多模态情感识别方法，其特征在于：利用OpenSMILE提取输入语音的情感浅层特征，并与Tr ansformer网络学习浅层特征后得到的深层特征进行融合生成多层次的声学特征；利用内容相同的语音与转录文本进行强制对齐获取停顿信息，然后将语音中的说话停顿信息编码后添加至转录文本，送入分层密集连接DC ‑BERT模型中获取文本特征，再与声学特征融合；利用基于注意力机制的双向长短时记忆神经网络 BiLSTM‑ATT作为分类器，通过BiLSTM网络利用先验知识，获取有效的上下文信息，并通过注意力机制抽取特征中突显情感信息的部分以避免信息冗余，在注意力机制后面添加全局平均池化层代替传统使用的全连接层，可以有效的防止过拟合问题，最后送入softmax层中进行情感分类。 2.根据权利要求1所述基于声学和文本特征的多模态情感识别方法，其特征在于具体步骤如下： S1：将待判断的原始语音音频输入OpenSMILE中，使用OpenSMILE工具箱中的emobase特征集提取原始语音数据中的浅层声学特征； S2：将提取出来的浅层声学特征输入Transformer网络，利用Transformer网络的编码器结构有效的学习输入的浅层声学特征之间的关系，从而输出一个情感相关的特征序列，即具有全局信息的深层特征； S3：将浅层声学特征的序列与深层特征的序列进行拼接融合获得深浅融合特征序列，浅层特征序列内容在前，深层特征在后进行拼接； S4：对原始语音转录的文本进行预处理：删除文本中的标点符号，并将转录形成的字词格式统一书写形式； S5：通过宾夕法尼亚大学语音标签强制对齐工具P2FA对步骤S4预处理后的转录文本和原始语音进行强制对齐，从而确定停顿的位置和持续时间； S6：将语音音频中不同的停顿时长分为六个区间： 0.05 ‑0.1s， 0.1 ‑0.3s， 0.3 ‑0.6s， 0.6‑1.0s， 1.0 ‑2.0s和大于2.0s，将六个区间的停顿时长分别使用： “..”,“...”,“....”, “.....”,“......”,“.......”在转录文本中进行标注，在转录文本中标注的位置匹配语音音频的停顿时长，并在文本中每个说话人的句尾添加标注 “.”作为结束的标志； S7：将标注好停顿编码的转录文本输入训练好的改进DC ‑BERT中，改进DC ‑BERT根据转录文本中的停顿编码标注输出话语级文本的情感特征； S8：将语音音频对应的深浅融合特征序列与话语级文本的情感特征再进行拼接融合，获得该段音频中每一句话的声学文本融合特征； S9：最后将声学文本融合特征送入带有注意力机制的BiLSTM网络中进行情感分类，输出对应的情感分类，实现情感的识别。 3.根据权利要求1所述的基于声学和文本特征的多模态情感识别方法，其特征在于：利用内置文件对送入OpenSMILE中的原始的语音信号进行浅层声学特征提取，包括强度、响度、梅尔频率倒谱系数、音调以及它们在话语级上每个短帧的统计值，如最大值、最小值、平均值和标准偏差；浅层声学特征由低级描述符组成的序列；仅选取情感数据集中表示愤怒，快乐，中立，悲伤的音频和转录文本进行识别，快乐由高兴和兴奋情感合并而成。 4.根据权利要求1所述的基于声学和文本特征的多模态情感识别方法，其特征在于：将权　利　要　求　书 1/3 页 2 CN 114446324 A 2宾夕法尼亚大学语音标签强制对齐工具强制对齐并编码后的转录文本送入改进DC ‑BERT 中，选择DC ‑BERT倒数第二层的768维输出序列作为话语级文本特征；所述改进DC ‑BERT模型保留了传统BERT模型中Transformer的每个多头自注意层内部的残差连接，在层与层之间新增了密集连接，即每一个多头自注意力层的输入额外增加了前两层的特征信息，用以加快模型的收敛速度，使网络的损失函数更加平滑，而每一层提取的特征也可以在不同的注意层之间被重复使用，提高了特征的利用率；改进DC‑BERT的内部形式是：假设给定一个输入特征序列X，那么xi＝H(xi‑1)+αxi‑1+β xi‑2，其中xi为输入特征序列X的第i个元素， H为非线性函数， α和β 为保留前两层信息的权重系数，使得每一层都能得到前两层处理的结果，却又不占主导地位；改进DC ‑BERT模型由12 层Transformer组成，每一层的输出理论上都可以作为话语级的文本特征。 5.根据权利要求1所述的基于声学和文本特征的多模态情感识别方法，其特征在于：将声学特征和文本特征融合后送入带注意力机制的BiLSTM网络中，进行情感分类， BiLSTM网络的注意力机制有三种，即局部注意力机制，自注意力机制，多头注意力机制；局部注意力机制：该机制只关注一部分编码隐藏层，局部注意力首先在时间t上，为当前节点生成一个对齐位置pt，然后选择性地设置一个固定大小为2D+1的上下文窗口，公式如下：其中D是根据经验选择； pt为窗口中心，由当前隐藏状态的ht决定，是一个实数；对齐权重alignment weights的计算过程和传统at tention相似: 其中标准偏差σ 根据经验设定， ht是当前decoder第t个时间步的隐藏状态，是encoder 第i个时间步的隐藏状态， i表示输入序列的位置， Tx表示序列长度；自注意力机制利用了输入特征序列元素之间的加权相关性，即输入序列的每个元素都能够通过一个线性函数投影成三种不同的表示形式：查询query、键key、值value，其计算公式如下：其中xi表示输入特征序列中第i个元素， qi， vi， ki表示输入特征序列中第i个元素的查询向量，值向量，键向量，表示获得查询向量，值向量，键向量的三个权重矩阵的转置，最终注意矩阵如公式所示：其中Q为查询矩阵， K为键矩阵， V为句子的值矩阵， dk是比例因子；在自注意力机制的基础上，对比了多头自注意力机制对语音情感识别任务的影响，多权　利　要　求　书 2/3 页 3 CN 114446324 A 3

专利 一种基于声学和文本特征的多模态情感识别方法

专利一种基于声学和文本特征的多模态情感识别方法