(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210009893.0
(22)申请日 2022.01.06
(71)申请人 上海幻电信息科技有限公司
地址 200120 上海市浦东 新区中国 (上海)
自由贸易试验区祖冲之路2277弄1号
905、 906室
(72)发明人 谢畅
(74)专利代理 机构 北京英特普罗知识产权代理
有限公司 1 1015
代理人 王勇
(51)Int.Cl.
G10L 15/26(2006.01)
G10L 15/06(2013.01)
G10L 15/14(2006.01)
G06F 40/30(2020.01)G06F 40/232(2020.01)
G06F 40/289(2020.01)
(54)发明名称
语音识别文本的修 正方法及系统
(57)摘要
本申请实施例公开了一种语音识别文本的
修正方法, 所述方法包括: 获取第一语音识别文
本, 所述第一语音识别文本基于语音识别得到;
修正所述第一语音识别文本中的部分字词, 得到
第二语音识别文本; 删除所述第二语音识别文本
中的冗余信息, 得到第三语音识别文本; 及基于
语法语义修正和语 言风格修正, 将所述第三语音
识别文本转换为目标语音识别文本。 在本申请实
施例中, 通过上述环环相扣的纠错、 去冗余、 语义
修正和书面转换, 高效且大幅度提高语音识别的
准确率, 将语音转换为准确平滑的书面文本, 提
升语音识别的用户体验。
权利要求书2页 说明书15页 附图9页
CN 114333838 A
2022.04.12
CN 114333838 A
1.一种语音识别文本的修 正方法, 其特 征在于, 所述方法包括:
获取第一语音识别文本, 所述第一语音识别文本基于语音识别得到;
修正所述第一语音识别文本中的部分字词, 得到第二语音识别文本;
删除所述第二语音识别文本中的冗余信息, 得到第三语音识别文本; 及
基于语法语义修正和语言风格修正, 将所述第 三语音识别文本转换为目标语音识别文
本。
2.根据权利要求1所述的语音识别文本的修正方法, 其特征在于, 所述修正所述第 一语
音识别文本中的部分字词, 得到第二语音识别文本, 包括:
对所述第一语音识别文本中的各个字符进行编码, 得到第一编码序列;
对所述第一语音识别文本中的各个字符的拼音 进行编码, 得到第二编码序列;
根据所述第一编码序列和第二编码序列, 生成目标编码序列; 及
将所述目标编码序列输入到纠错模型, 通过所述纠错模块输出所述第二语音识别文
本; 其中, 所述纠错模型为训练好的基于 字符和拼音 进行句子纠错的模型。
3.根据权利要求2所述的语音识别文本的修 正方法, 其特 征在于, 还 包括:
确定目标语言模型, 所述目标语音模型用于预测上 下文信息以及发音与文本的关联;
确定多个样本句子;
执行第一修改操作: 以预设数量比例以及预设修改规则, 修改各个样本句子中的部分
拼音;
执行第二修改操作: 用与各个 被修改的拼音同音的字替换原来的字;
执行第三修改操作: 以预设数量比例从各个样本句子中挑选出部分字, 将被挑选出的
各个字替换为与之同音的其 他字, 其中, 被挑选出的各个字未被修改拼音;
基于所述第 一修改操作、 第 二修改操作和/或第 三修改操作, 得到多个修改后的样本句
子;
根据所述多个修改后的样本句子和所述多个样本句子训练所述目标语言模型, 得到所
述纠错模型;
其中, 所述多个修改后的样本句子为训练样本, 所述多个样本句子为 参照样本 。
4.根据权利要求3所述的语音识别文本的修正方法, 其特征在于, 还包括训练所述目标
语言模型:
对多个样本句子对应的拼音进行编码, 以得到多个样本句子编码; 每个样本句子对应
一个样本句子编码, 样本句子编码中的各个to ken对应相应样本句子中的字符;
将每个样本句子编码的部分to ken替换为遮盖符;
根据携带有遮盖符的各个样本句子编码, 训练BERT模型, 以得到所述目标语言模型。
5.根据权利要求1所述的语音识别文本的修正方法, 其特征在于, 所述删除所述第 二语
音识别文本中的冗余信息, 得到第三语音识别文本, 包括:
确定所述第二语音识别文本中的单字 重复或多字 重复;
确定所述单字 重复或多字 重复在所述第二语音识别文本中的文本位置;
将所述第二语音识别文本的编码序列和所述文本位置输入到重复判别模型中, 通过所
述重复判别模型确定是否对所述重复字词 执行删除操作; 其中, 所述重复判别模型是预先
训练好的并根据上 下文本信息和位置信息判别重复字词的模型。权 利 要 求 书 1/2 页
2
CN 114333838 A
26.根据权利要求1所述的语音识别文本的修正方法, 其特征在于, 所述删除所述第 二语
音识别文本中的冗余信息, 得到第三语音识别文本, 包括:
根据预设规则, 确定所述第二语音识别文本中的候选语气词;
确定所述 候选语气词在所述第二语音识别文本中的文本位置; 及
将所述第二语音识别文本的编码序列和所述文本位置输入到语气词判别模型中, 通过
所述语气词判别模型确定是否对所述语气词执行删除操作; 其中, 所述语气词判别模型是
预先训练好的并根据上 下文本信息和位置信息判别语气词的模型。
7.根据权利要求1所述的语音识别文本的修正方法, 其特征在于, 所述删除所述第 二语
音识别文本中的冗余信息, 得到第三语音识别文本, 包括:
确定所述第二语音识别文本中的高频词, 所述高频词的出现次数 大于预设阈值;
确定所述高频词在所述第二语音识别文本中的文本位置;
将所述第二语音识别文本的编码序列和所述文本位置输入到口头禅判别模型中, 通过
所述口头禅判别模型确定所述高频词 是否为口头禅; 其中, 所述口头禅判别模型是预先训
练好的并根据上 下文本信息和位置信息判别口头禅的模型; 及
在所述高频词被判定为所述口头禅的情形 下, 对所述高频词执 行删除操作。
8.根据权利要求1所述的语音识别文本的修正方法, 其特征在于, 所述基于语法语义修
正和语言风格修 正, 将所述第三语音识别文本转换为目标语音识别文本, 包括:
通过训练好的语法语义修正模型修正所述第三语音识别文本, 得到第四语音识别文
本;
根据映射表, 将所述第 四语音识别文本中的口语表述替换为书面语表述, 得到所述目
标语音识别文本; 所述映射表用于表示口语表述和书面语表述之间的对应关系。
9.根据权利要求8所述的语音识别文本的修 正方法, 其特 征在于, 还 包括:
获取多个训练语料, 各训练语料均包括语法错 误;
获取多个参 考语料, 参 考语料为相应训练语料被 语法修正后的语料;
根据所述多个训练语料和所述多个参考语料进行模型训练, 以得到语法语义修正模
型。
10.一种语音识别文本的修 正系统, 其特 征在于, 所述系统包括:
获取模块, 用于获取第一语音识别文本, 所述第一语音识别文本基于语音识别得到;
第一修正模块, 用于修正所述第一语音识别文本中的部分字词, 得到第二语音识别文
本;
删除模块, 用于删除所述第二语音识别文本中的冗余信息, 得到第三语音识别文本; 及
第二修正模块, 用于基于语法语义修正和语言风格修正, 将所述第三语音识别文本转
换为目标语音识别文本 。
11.一种计算机设备, 所述计算机设备包括存储器、 处理器以及存储在存储器上并可在
处理器上运行 的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时用于实现权
利要求1至9中任意 一项所述的语音识别文本的修 正方法的步骤。
12.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质内存储有计算机
程序, 所述计算机程序可被至少一个处理器所执行, 以使所述至少一个处理器执行权利要
求1至9中任意 一项所述的语音识别文本的修 正方法的步骤。权 利 要 求 书 2/2 页
3
CN 114333838 A
3
专利 语音识别文本的修正方法及系统
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:01上传分享