(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210143134.3
(22)申请日 2022.02.16
(71)申请人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 罗圣西 马骏 王少军
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
专利代理师 尹长斌
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/284(2020.01)
(54)发明名称
语义识别方法、 装置、 电子设备及存 储介质
(57)摘要
本发明实施例公开了一种语义识别方法、 装
置、 电子设备及存储介质, 该语义识别方法通过
引入待识别词格信息来进行语义识别, 同时引入
掩码参数计算注意力分数, 由于输入至语义识别
模型的是待识别词格信息, 因此可以利用词格信
息包含的转译文本更丰富的特点, 减 轻语音数据
转译错误对语义识别的影响, 并且, 相应地通过
根据句子路径引入掩码参数进而计算注意力分
数, 使得语义识别模型适应词格信息的结构, 输
出的目标词向量更加准确, 可见, 本发明实施例
语义识别方法能够提高对语音数据转译错误的
情况的鲁棒性, 从而提高语义识别的准确性, 可
以广泛应用于人工智能等 技术领域。
权利要求书2页 说明书11页 附图7页
CN 114492457 A
2022.05.13
CN 114492457 A
1.一种语义识别方法, 其特 征在于, 包括:
获取由语音数据转译得到的待识别词格信 息, 将所述待识别词格信 息输入至语义识别
模型; 其中, 所述待识别词格信息包括多个第一词语节点的第一初始词向量, 多个所述第一
词语节点形成多条句子路径;
遍历多个所述第 一词语节点中的每一个目标词语节点, 根据所述目标词语节点所在的
所述句子路径确定所述目标词语节点与其余各个所述第一词语节点之 间的掩码参数, 根据
所述掩码参数计算所述目标词语节点与其 余各个所述第一词语节点之间的注意力分数;
根据其余各个所述第 一词语节点的所述第 一初始词向量和对应的所述注意力分数, 计
算所述目标词语节点对应的目标词向量, 根据各个所述目标词语节点对应的所述目标词向
量得到所述语音数据的语义识别结果。
2.根据权利要求1所述的语义识别方法, 其特征在于, 所述根据 所述目标词语节点所在
的所述句子路径确定所述目标词语节点与其余各个所述第一词语节点之间的掩码参数, 包
括:
将与所述目标词语节点处于相同句子路径的其余所述第一词语节点作为相同路径节
点, 计算所述目标词语节点与各个所述相同路径 节点之间的第一 参数;
将与所述目标词语节点处于不同句子路径的其余所述第一词语节点作为不同路径节
点, 计算所述目标词语节点与各个所述 不同路径 节点之间的第二 参数;
将所述第一参数和所述第二参数作为所述目标词语节点与其余各个所述第一词语节
点之间的掩码参数。
3.根据权利要求2所述的语义识别方法, 其特征在于, 所述待识别词格信 息还包括各个
所述第一词语节点之间的第一连接概率, 所述计算所述目标词语节点与各个所述相同路径
节点之间的第一 参数, 包括:
根据所述第一连接概率确定所述目标词语节点与各个所述相同路径节点之间的第二
连接概率;
根据所述第二连接概率计算所述目标词语节点与各个所述相同路径节点之间的第一
参数。
4.根据权利要求1所述的语义识别方法, 其特征在于, 所述根据其余各个所述第 一词语
节点的所述第一初始词向量和对应的所述注意力分数, 计算所述目标词语节点对应的目标
词向量, 包括:
根据其余各个所述第一词语节点的所述第一初始词向量和对应的所述注意力分数的
乘积, 得到其 余各个所述第一词语节点对应的注意力词向量;
根据其余各个所述第一词语节点对应的所述注意力词向量之和得到所述目标词语节
点对应的目标词向量。
5.根据权利要求1至4任意一项所述的语义识别方法, 其特征在于, 所述获取由语音数
据转译得到的待识别词格信息, 包括:
获取由语音数据转译得到的初始词格信息; 其中, 所述初始词格信息包括多个所述第
一词语节点的第二初始词向量;
根据所述第一词语节点在各个所述句子路径中的文本序列位置确定所述第一词语节
点在各个句子路径中对应的位置编 码, 根据各个所述位置编码的大小从所述位置编 码中确权 利 要 求 书 1/2 页
2
CN 114492457 A
2定目标编码;
根据各个所述第一词语节点对应的所述目标编码和所述第二初始词向量计算得到各
个所述第一词语节点对应的第一初始词向量;
根据各个所述第 一词语节点对应的第 一初始词向量更新所述初始词格信 息, 得到待识
别词格信息 。
6.根据权利要求5所述的语义识别方法, 其特征在于, 所述根据 各个所述第 一词语节点
对应的所述目标编码和所述第二初始词向量计算得到各个所述第一词语节点对应的第一
初始词向量, 包括:
确定所述第二初始词向量的向量维度;
根据所述目标编码和所述向量维度生成编码向量;
根据各个所述第一词语节点对应的所述编码向量与所述第二初始词向量之和得到各
个所述第一词语节点对应的第一初始词向量。
7.根据权利要求1至4任意一项所述的语义识别方法, 其特征在于, 所述语义识别模型
通过以下步骤训练得到:
获取样本词格信息, 所述样本词格信息包括多个第二词语节点的参 考向量;
对任意的所述第二词语节点进行屏蔽处 理;
将进行屏蔽处理后的所述样本词格信 息输入至所述语义识别模型, 得到被屏蔽处理 的
所述第二词语节点对应的样本向量;
根据所述样本向量和所述参考向量计算所述语义识别模型的目标损失值, 根据 所述目
标损失值对所述语义识别模型进行训练。
8.一种语义识别装置, 其特 征在于, 包括:
词格信息输入模块, 用于获取由语音数据转译得到的待识别词格信息, 将所述待识别
词格信息输入至语义识别模型; 其中, 所述待识别词格信息包括多个第一词语节点的第一
初始词向量, 多个所述第一词语节点形成多条句子路径;
注意力分数计算模块, 用于遍历多个所述第一词语节点中的每一个目标词语节点, 根
据所述目标词语节点所在的所述句子路径确定所述目标词语节点与其余各个所述第一词
语节点之 间的掩码参数, 根据所述掩码参数计算所述目标词语节点与其余各个所述第一词
语节点之间的注意力分数;
语义识别结果输出模块, 用于根据其余各个所述第 一词语节点的所述第 一初始词向量
和对应的所述注意力 分数, 计算所述 目标词语节点对应的目标词向量, 根据各个所述 目标
词语节点对应的所述目标词向量得到所述语音数据的语义识别结果。
9.一种电子设备, 其特征在于, 包括存储器、 处理器, 所述存储器存储有计算机程序, 所
述处理器执行所述计算机程序时实现权利要求1至7中任意 一项所述的语义识别方法。
10.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有程序, 所述程序被处
理器执行实现权利要求1至7中任意 一项所述的语义识别方法。权 利 要 求 书 2/2 页
3
CN 114492457 A
3
专利 语义识别方法、装置、电子设备及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:34上传分享