(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210108118.0
(22)申请日 2022.01.28
(71)申请人 江苏师范大学
地址 221116 江苏省徐州市铜山 新区上海
路101号
(72)发明人 金赟 顾煜 俞佳佳
(74)专利代理 机构 南京瑞弘专利商标事务所
(普通合伙) 32249
专利代理师 李悦声
(51)Int.Cl.
G10L 25/63(2013.01)
G10L 25/30(2013.01)
G10L 25/03(2013.01)
G10L 25/24(2013.01)
G06F 40/30(2020.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于声学和文本特征的多模态情感识
别方法
(57)摘要
本发明提出了一种基于声学和文本特征的
多模态情感识别方法适用于语音和文本情感特
征的提取。 利用OpenSMILE提取输入语音的情感
浅层特征, 并与Transformer网络学习浅层特征
后得到的深层特征进行融合生成多层次的声学
特征; 再将语音与转录文本进行强制对齐获取停
顿信息, 然后将语音中的说话停顿信息编码后添
加至转录文本, 送入分层密集连接DC ‑BERT模型
中获取文本特征, 再与声学特征融合; 通过
BiLSTM网络利用先验知 识, 获取有效的上下文信
息, 并通过注 意力机制抽取特征中突显情感信息
的部分以避免信息冗余, 在注 意力机制后面添加
全局平均池化层代替传统使用的全 连接层, 最后
送入softmax层中进行情感分类。 其步骤简单, 识
别精准, 具有广泛的实用价 值。
权利要求书3页 说明书6页 附图1页
CN 114446324 A
2022.05.06
CN 114446324 A
1.一种基于声学和文本特征的多模态情感识别方法, 其特征在于: 利用OpenSMILE提取
输入语音的情感浅层特征, 并与Tr ansformer网络学习浅层特征后得到的深层特征进行融
合生成多层次的声学特征; 利用内容相同的语音与转录文本进行强制对齐获取停顿信息,
然后将语音中的说话停顿信息编码后添加 至转录文本, 送入分层密集连接DC ‑BERT模型中
获取文本特征, 再与声学特征融合; 利用基于注意力机制的双向长短时记忆神经网络
BiLSTM‑ATT作为分类器, 通过BiLSTM网络利用先验知识, 获取有效的上下文信息, 并通过注
意力机制抽取特征中突显情感信息的部 分以避免信息冗余, 在注意力机制后面添加全局平
均池化层代替传统使用的全连接层, 可以有效的防止过拟合问题, 最后送入softmax层中进
行情感分类。
2.根据权利要求1所述基于声学和文本特征的多模态情感识别方法, 其特征在于具体
步骤如下:
S1: 将待判断的原始语音音频输入OpenSMILE中, 使用OpenSMILE工具箱中的emobase特
征集提取原始语音数据中的浅层声学 特征;
S2: 将提取出来的浅层声学特征输入Transformer网络, 利用Transformer网络的编码
器结构有效的学习输入的浅层声学特征之间的关系, 从而输出一个情感相关的特征序列,
即具有全局信息的深层特 征;
S3: 将浅层声学特征的序列与深层特征的序列进行拼接融合获得深浅融合特征序列,
浅层特征序列内容在前, 深层特 征在后进行拼接;
S4: 对原始语音转录的文本进行预处理: 删除文本中的标点符号, 并将转录形成的字词
格式统一书 写形式;
S5: 通过宾夕法尼亚大学语音标签强制对齐工具P2FA对步骤S4预处理后的转录文本和
原始语音进行强制对齐, 从而确定停顿的位置和持续时间;
S6: 将语音音频中不同的停顿时长分为六个区间: 0.05 ‑0.1s, 0.1 ‑0.3s, 0.3 ‑0.6s,
0.6‑1.0s, 1.0 ‑2.0s和大于2.0s, 将六个区间的停顿时长分别使用: “..”,“...”,“....”,
“.....”,“......”,“.......”在转录文本中进行标注, 在转录文本中标注的位置匹配语音
音频的停顿时长, 并在文本中每 个说话人的句尾添加标注 “.”作为结束的标志;
S7: 将标注好停顿编码的转录文本输入训练好的改进DC ‑BERT中, 改进DC ‑BERT根据转
录文本中的停顿编码标注输出话语级 文本的情感特 征;
S8: 将语音音频对应的深浅融合特征序列与话语级文本的情感特征再进行拼接融合,
获得该段音频中每一句话的声学文本融合特 征;
S9: 最后将声学文本融合特征送入带有注意力机制的BiLSTM网络中进行情感分类, 输
出对应的情感分类, 实现情感的识别。
3.根据权利要求1所述的基于声学和文本特征的多模态情感识别方法, 其特征在于: 利
用内置文件对送入OpenSMILE中的原始的语音信号进行浅层声学特征提取, 包括强度、 响
度、 梅尔频率倒谱系数、 音调以及它们在话语级 上每个短帧的统计值, 如最大值、 最小值、 平
均值和标准偏差;
浅层声学特征由低级描述符组成的序列; 仅选取情感数据集中表示愤怒, 快乐, 中立,
悲伤的音频和转录文本进行识别, 快乐由高兴和兴奋情感合并而成。
4.根据权利要求1所述的基于声学和文本特征的多模态情感识别方法, 其特征在于: 将权 利 要 求 书 1/3 页
2
CN 114446324 A
2宾夕法尼亚大学语音标签强制对齐工具强制对齐并编码后的转录文本送入改进DC ‑BERT
中, 选择DC ‑BERT倒数第二层的768维输出序列 作为话语级文本特征;
所述改进DC ‑BERT模型保留了传统BERT模型中Transformer的每个多头自注意层 内部
的残差连接, 在层与层之间新增了密集连接, 即每一个多头自注意力层的输入额外增加了
前两层的特征信息, 用以加快模 型的收敛速度, 使网络的损失函数更加平滑, 而每一层提取
的特征也可以在不同的注意层之间被重复使用, 提高了特 征的利用率;
改进DC‑BERT的内部形式是: 假设给定一个输入特征序列X, 那么xi=H(xi‑1)+αxi‑1+β
xi‑2, 其中xi为输入特征序列X的第i个元素, H为非线性函数, α和β 为保 留前两层信息的权重
系数, 使得每一层都能得到前两层处理的结果, 却又不占主导地位; 改进DC ‑BERT模型由12
层Transformer组成, 每一层的输出理论上都可以作为 话语级的文本特 征。
5.根据权利要求1所述的基于声学和文本特征的多模态情感识别方法, 其特征在于: 将
声学特征和文本特征融合后送入带注意力机制的BiLSTM网络中, 进行情感分类, BiLSTM网
络的注意力机制有三种, 即局部注意力机制, 自注意力机制, 多头注意力机制;
局部注意力机制: 该机制只关注一部分编码隐藏层, 局部注意力首先在时间t上, 为当
前节点生成一个对齐位置pt, 然后选择性地设置一个固定大小为2D+1的上下文窗口, 公式
如下:
其中D是根据经验选择; pt为窗口中心, 由当前隐藏状态的ht决定, 是一个实数; 对齐权
重alignment weights的计算过程和传统at tention相似:
其中标准偏差σ 根据经验设定, ht是当前decoder第t个时间步的 隐藏状态,
是encoder
第i个时间步的隐藏状态, i表示输入序列的位置, Tx表示序列长度;
自注意力 机制利用了输入特征序列 元素之间的加权相关性, 即输入序列的每个元素都
能够通过一个线性函数 投影成三种不同的表示形式: 查询query、 键key、 值value, 其计算公
式如下:
其中xi表示输入特征序列中第i个 元素, qi, vi, ki表示输入特征序列中第i个 元素的查询
向量, 值向量, 键向量,
表示获得查询向量, 值向量, 键向量的三个权重矩阵的
转置,
最终注意矩阵如公式所示:
其中Q为查询矩阵, K为键矩阵, V为句子的值矩阵, dk是比例因子;
在自注意力机制的基础上, 对比了多头自注意力机制对语音情感识别任务的影响, 多权 利 要 求 书 2/3 页
3
CN 114446324 A
3
专利 一种基于声学和文本特征的多模态情感识别方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:40上传分享