专利 语义识别方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210143134.3 (22)申请日 2022.02.16 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人罗圣西　马骏　王少军　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 专利代理师尹长斌 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/284(2020.01) (54)发明名称语义识别方法、装置、电子设备及存储介质 (57)摘要本发明实施例公开了一种语义识别方法、装置、电子设备及存储介质，该语义识别方法通过引入待识别词格信息来进行语义识别，同时引入掩码参数计算注意力分数，由于输入至语义识别模型的是待识别词格信息，因此可以利用词格信息包含的转译文本更丰富的特点，减轻语音数据转译错误对语义识别的影响，并且，相应地通过根据句子路径引入掩码参数进而计算注意力分数，使得语义识别模型适应词格信息的结构，输出的目标词向量更加准确，可见，本发明实施例语义识别方法能够提高对语音数据转译错误的情况的鲁棒性，从而提高语义识别的准确性，可以广泛应用于人工智能等技术领域。权利要求书2页说明书11页附图7页 CN 114492457 A 2022.05.13 CN 114492457 A 1.一种语义识别方法，其特征在于，包括：获取由语音数据转译得到的待识别词格信息，将所述待识别词格信息输入至语义识别模型；其中，所述待识别词格信息包括多个第一词语节点的第一初始词向量，多个所述第一词语节点形成多条句子路径；遍历多个所述第一词语节点中的每一个目标词语节点，根据所述目标词语节点所在的所述句子路径确定所述目标词语节点与其余各个所述第一词语节点之间的掩码参数，根据所述掩码参数计算所述目标词语节点与其余各个所述第一词语节点之间的注意力分数；根据其余各个所述第一词语节点的所述第一初始词向量和对应的所述注意力分数，计算所述目标词语节点对应的目标词向量，根据各个所述目标词语节点对应的所述目标词向量得到所述语音数据的语义识别结果。 2.根据权利要求1所述的语义识别方法，其特征在于，所述根据所述目标词语节点所在的所述句子路径确定所述目标词语节点与其余各个所述第一词语节点之间的掩码参数，包括：将与所述目标词语节点处于相同句子路径的其余所述第一词语节点作为相同路径节点，计算所述目标词语节点与各个所述相同路径节点之间的第一参数；将与所述目标词语节点处于不同句子路径的其余所述第一词语节点作为不同路径节点，计算所述目标词语节点与各个所述不同路径节点之间的第二参数；将所述第一参数和所述第二参数作为所述目标词语节点与其余各个所述第一词语节点之间的掩码参数。 3.根据权利要求2所述的语义识别方法，其特征在于，所述待识别词格信息还包括各个所述第一词语节点之间的第一连接概率，所述计算所述目标词语节点与各个所述相同路径节点之间的第一参数，包括：根据所述第一连接概率确定所述目标词语节点与各个所述相同路径节点之间的第二连接概率；根据所述第二连接概率计算所述目标词语节点与各个所述相同路径节点之间的第一参数。 4.根据权利要求1所述的语义识别方法，其特征在于，所述根据其余各个所述第一词语节点的所述第一初始词向量和对应的所述注意力分数，计算所述目标词语节点对应的目标词向量，包括：根据其余各个所述第一词语节点的所述第一初始词向量和对应的所述注意力分数的乘积，得到其余各个所述第一词语节点对应的注意力词向量；根据其余各个所述第一词语节点对应的所述注意力词向量之和得到所述目标词语节点对应的目标词向量。 5.根据权利要求1至4任意一项所述的语义识别方法，其特征在于，所述获取由语音数据转译得到的待识别词格信息，包括：获取由语音数据转译得到的初始词格信息；其中，所述初始词格信息包括多个所述第一词语节点的第二初始词向量；根据所述第一词语节点在各个所述句子路径中的文本序列位置确定所述第一词语节点在各个句子路径中对应的位置编码，根据各个所述位置编码的大小从所述位置编码中确权　利　要　求　书 1/2 页 2 CN 114492457 A 2定目标编码；根据各个所述第一词语节点对应的所述目标编码和所述第二初始词向量计算得到各个所述第一词语节点对应的第一初始词向量；根据各个所述第一词语节点对应的第一初始词向量更新所述初始词格信息，得到待识别词格信息。 6.根据权利要求5所述的语义识别方法，其特征在于，所述根据各个所述第一词语节点对应的所述目标编码和所述第二初始词向量计算得到各个所述第一词语节点对应的第一初始词向量，包括：确定所述第二初始词向量的向量维度；根据所述目标编码和所述向量维度生成编码向量；根据各个所述第一词语节点对应的所述编码向量与所述第二初始词向量之和得到各个所述第一词语节点对应的第一初始词向量。 7.根据权利要求1至4任意一项所述的语义识别方法，其特征在于，所述语义识别模型通过以下步骤训练得到：获取样本词格信息，所述样本词格信息包括多个第二词语节点的参考向量；对任意的所述第二词语节点进行屏蔽处理；将进行屏蔽处理后的所述样本词格信息输入至所述语义识别模型，得到被屏蔽处理的所述第二词语节点对应的样本向量；根据所述样本向量和所述参考向量计算所述语义识别模型的目标损失值，根据所述目标损失值对所述语义识别模型进行训练。 8.一种语义识别装置，其特征在于，包括：词格信息输入模块，用于获取由语音数据转译得到的待识别词格信息，将所述待识别词格信息输入至语义识别模型；其中，所述待识别词格信息包括多个第一词语节点的第一初始词向量，多个所述第一词语节点形成多条句子路径；注意力分数计算模块，用于遍历多个所述第一词语节点中的每一个目标词语节点，根据所述目标词语节点所在的所述句子路径确定所述目标词语节点与其余各个所述第一词语节点之间的掩码参数，根据所述掩码参数计算所述目标词语节点与其余各个所述第一词语节点之间的注意力分数；语义识别结果输出模块，用于根据其余各个所述第一词语节点的所述第一初始词向量和对应的所述注意力分数，计算所述目标词语节点对应的目标词向量，根据各个所述目标词语节点对应的所述目标词向量得到所述语音数据的语义识别结果。 9.一种电子设备，其特征在于，包括存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7中任意一项所述的语义识别方法。 10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现权利要求1至7中任意一项所述的语义识别方法。权　利　要　求　书 2/2 页 3 CN 114492457 A 3

专利 语义识别方法、装置、电子设备及存储介质

专利语义识别方法、装置、电子设备及存储介质