专利 语音识别文本的修正方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210009893.0 (22)申请日 2022.01.06 (71)申请人上海幻电信息科技有限公司地址 200120 上海市浦东新区中国（上海）自由贸易试验区祖冲之路2277弄1号 905、 906室 (72)发明人谢畅　 (74)专利代理机构北京英特普罗知识产权代理有限公司 1 1015 代理人王勇 (51)Int.Cl. G10L 15/26(2006.01) G10L 15/06(2013.01) G10L 15/14(2006.01) G06F 40/30(2020.01)G06F 40/232(2020.01) G06F 40/289(2020.01) (54)发明名称语音识别文本的修正方法及系统 (57)摘要本申请实施例公开了一种语音识别文本的修正方法，所述方法包括：获取第一语音识别文本，所述第一语音识别文本基于语音识别得到；修正所述第一语音识别文本中的部分字词，得到第二语音识别文本；删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本；及基于语法语义修正和语言风格修正，将所述第三语音识别文本转换为目标语音识别文本。在本申请实施例中，通过上述环环相扣的纠错、去冗余、语义修正和书面转换，高效且大幅度提高语音识别的准确率，将语音转换为准确平滑的书面文本，提升语音识别的用户体验。权利要求书2页说明书15页附图9页 CN 114333838 A 2022.04.12 CN 114333838 A 1.一种语音识别文本的修正方法，其特征在于，所述方法包括：获取第一语音识别文本，所述第一语音识别文本基于语音识别得到；修正所述第一语音识别文本中的部分字词，得到第二语音识别文本；删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本；及基于语法语义修正和语言风格修正，将所述第三语音识别文本转换为目标语音识别文本。 2.根据权利要求1所述的语音识别文本的修正方法，其特征在于，所述修正所述第一语音识别文本中的部分字词，得到第二语音识别文本，包括：对所述第一语音识别文本中的各个字符进行编码，得到第一编码序列；对所述第一语音识别文本中的各个字符的拼音进行编码，得到第二编码序列；根据所述第一编码序列和第二编码序列，生成目标编码序列；及将所述目标编码序列输入到纠错模型，通过所述纠错模块输出所述第二语音识别文本；其中，所述纠错模型为训练好的基于字符和拼音进行句子纠错的模型。 3.根据权利要求2所述的语音识别文本的修正方法，其特征在于，还包括：确定目标语言模型，所述目标语音模型用于预测上下文信息以及发音与文本的关联；确定多个样本句子；执行第一修改操作：以预设数量比例以及预设修改规则，修改各个样本句子中的部分拼音；执行第二修改操作：用与各个被修改的拼音同音的字替换原来的字；执行第三修改操作：以预设数量比例从各个样本句子中挑选出部分字，将被挑选出的各个字替换为与之同音的其他字，其中，被挑选出的各个字未被修改拼音；基于所述第一修改操作、第二修改操作和/或第三修改操作，得到多个修改后的样本句子；根据所述多个修改后的样本句子和所述多个样本句子训练所述目标语言模型，得到所述纠错模型；其中，所述多个修改后的样本句子为训练样本，所述多个样本句子为参照样本。 4.根据权利要求3所述的语音识别文本的修正方法，其特征在于，还包括训练所述目标语言模型：对多个样本句子对应的拼音进行编码，以得到多个样本句子编码；每个样本句子对应一个样本句子编码，样本句子编码中的各个to ken对应相应样本句子中的字符；将每个样本句子编码的部分to ken替换为遮盖符；根据携带有遮盖符的各个样本句子编码，训练BERT模型，以得到所述目标语言模型。 5.根据权利要求1所述的语音识别文本的修正方法，其特征在于，所述删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本，包括：确定所述第二语音识别文本中的单字重复或多字重复；确定所述单字重复或多字重复在所述第二语音识别文本中的文本位置；将所述第二语音识别文本的编码序列和所述文本位置输入到重复判别模型中，通过所述重复判别模型确定是否对所述重复字词执行删除操作；其中，所述重复判别模型是预先训练好的并根据上下文本信息和位置信息判别重复字词的模型。权　利　要　求　书 1/2 页 2 CN 114333838 A 26.根据权利要求1所述的语音识别文本的修正方法，其特征在于，所述删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本，包括：根据预设规则，确定所述第二语音识别文本中的候选语气词；确定所述候选语气词在所述第二语音识别文本中的文本位置；及将所述第二语音识别文本的编码序列和所述文本位置输入到语气词判别模型中，通过所述语气词判别模型确定是否对所述语气词执行删除操作；其中，所述语气词判别模型是预先训练好的并根据上下文本信息和位置信息判别语气词的模型。 7.根据权利要求1所述的语音识别文本的修正方法，其特征在于，所述删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本，包括：确定所述第二语音识别文本中的高频词，所述高频词的出现次数大于预设阈值；确定所述高频词在所述第二语音识别文本中的文本位置；将所述第二语音识别文本的编码序列和所述文本位置输入到口头禅判别模型中，通过所述口头禅判别模型确定所述高频词是否为口头禅；其中，所述口头禅判别模型是预先训练好的并根据上下文本信息和位置信息判别口头禅的模型；及在所述高频词被判定为所述口头禅的情形下，对所述高频词执行删除操作。 8.根据权利要求1所述的语音识别文本的修正方法，其特征在于，所述基于语法语义修正和语言风格修正，将所述第三语音识别文本转换为目标语音识别文本，包括：通过训练好的语法语义修正模型修正所述第三语音识别文本，得到第四语音识别文本；根据映射表，将所述第四语音识别文本中的口语表述替换为书面语表述，得到所述目标语音识别文本；所述映射表用于表示口语表述和书面语表述之间的对应关系。 9.根据权利要求8所述的语音识别文本的修正方法，其特征在于，还包括：获取多个训练语料，各训练语料均包括语法错误；获取多个参考语料，参考语料为相应训练语料被语法修正后的语料；根据所述多个训练语料和所述多个参考语料进行模型训练，以得到语法语义修正模型。 10.一种语音识别文本的修正系统，其特征在于，所述系统包括：获取模块，用于获取第一语音识别文本，所述第一语音识别文本基于语音识别得到；第一修正模块，用于修正所述第一语音识别文本中的部分字词，得到第二语音识别文本；删除模块，用于删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本；及第二修正模块，用于基于语法语义修正和语言风格修正，将所述第三语音识别文本转换为目标语音识别文本。 11.一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时用于实现权利要求1至9中任意一项所述的语音识别文本的修正方法的步骤。 12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行权利要求1至9中任意一项所述的语音识别文本的修正方法的步骤。权　利　要　求　书 2/2 页 3 CN 114333838 A 3

专利 语音识别文本的修正方法及系统

专利语音识别文本的修正方法及系统