(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210129335.8
(22)申请日 2022.02.11
(71)申请人 阿里巴巴 (中国) 有限公司
地址 310052 浙江省杭州市滨江区长河街
道网商路69 9号4号楼5楼5 08室
(72)发明人 曹迪 邓憧
(74)专利代理 机构 北京智信禾专利代理有限公
司 11637
专利代理师 张小娜
(51)Int.Cl.
G06F 40/232(2020.01)
G06F 40/226(2020.01)
G06F 16/33(2019.01)
G06F 40/30(2020.01)
(54)发明名称
文本纠错方法以及装置
(57)摘要
本说明书实施例提供了文本纠错方法以及
装置, 其中, 文本纠错方法包括: 对待纠错文本进
行错误检测, 识别出错误文本片段, 并通过召回
得到错词对应的各初选候选词, 根据错误文本片
段对应的令牌信息和发音信息, 利用预训练的语
言模型结合掩码处理, 得到错误文本片段中掩码
位置处分别为各初选候选词的概率, 根据各初选
候选词的概率, 能够确定出用来替换错词的目标
候选词, 然后利用目标候选词替换掉待纠错文本
中的错词, 即可得到准确的修正文本, 提升了文
本纠错的准确性, 并且, 利用预训练的语言模型
结合掩码处 理, 提升了文本纠错的效率。
权利要求书3页 说明书15页 附图4页
CN 114580382 A
2022.06.03
CN 114580382 A
1.一种文本纠错方法, 包括:
获取待纠错文本, 对所述待纠错文本进行错 误检测, 确定包 含错词的错 误文本片段;
对所述错词进行候选词召回, 确定所述错词对应的各初选候选词, 并获得所述错误文
本片段对应的令牌信息和发音信息, 所述令牌信息为对所述错误文本片段中的所述错词进
行掩码处 理得到;
将所述令牌信息、 所述发音信息以及所述各初选候选词输入预训练的语言模型, 得到
所述错误文本片段中掩码位置处分别为所述各初选候选词的概率, 所述语言模型基于第一
语料样本及所述第一语料样本的发音信息, 对所述第一语料样本中特定词语进行掩码形式
的训练得到;
根据所述各初选候选词的概率, 确定目标候选词, 利用所述目标候选词替换所述待纠
错文本中的所述 错词, 得到修 正文本。
2.根据权利要求1所述的方法, 所述获取待纠错文本, 包括:
获取音频 数据;
对所述音频 数据进行识别, 得到待纠错文本 。
3.根据权利要求1或2所述的方法, 在所述对所述待纠 错文本进行错误检测, 确定包含
错词的错 误文本片段之前, 还 包括:
对所述待纠错文本进行 预处理, 获得所述待纠错文本中的各句子;
所述对所述待纠错文本进行错 误检测, 确定包 含错词的错 误文本片段, 包括:
对所述各句子分别进行错 误检测, 确定所述各句子中包 含错词的错 误文本片段。
4.根据权利要求3所述的方法, 所述对所述各句子分别进行错误检测, 确定所述各句子
中包含错词的错 误文本片段, 包括:
获得第一句子的发音信息, 所述第一句子为所述各句子中的任一句子;
将所述第一句子及所述发音信 息输入预训练 的错误检测模型, 得到所述第 一句子中每
个字的正确率值, 所述错误检测模型基于第二语料样本及所述第二语料样本的发音信息训
练得到;
根据所述每 个字的正确率 值, 确定所述第一句子中的第一 错词;
按照预设的文本片段提取方式, 确定所述第 一错词和所述第 一错词的相邻词语组成的
第一错误文本片段。
5.根据权利要求4所述的方法, 所述根据所述每个字的正确率值, 确定所述第 一句子中
的第一错词, 包括:
根据所述每 个字的正确率 值, 确定正确率 值小于第一预设阈值的目标字;
在预设的近音限制词表查找相邻的目标字组成的目标词语;
若查找到, 则确定所述目标词语为所述第一句子中的第一 错词。
6.根据权利要求1所述的方法, 所述对所述错词 进行候选词召回, 确定所述错词对应的
各初选候选词, 包括:
利用预设的候选词召回方式, 对所述 错词进行候选词召回;
获得所述错词的第 一发音信 息以及各召回的候选词的第 二发音信 息, 确定各第 二发音
信息与所述第一发音信息的相似度;
获得相似度大于第二预设阈值的各初选候选词。权 利 要 求 书 1/3 页
2
CN 114580382 A
27.根据权利要求1所述的方法, 所述对所述错词 进行候选词召回, 确定所述错词对应的
各初选候选词, 包括:
利用预设的候选词召回方式, 对所述 错词进行候选词召回;
基于所述待纠错文本, 确定各召回的候选词的词特 征信息;
根据所述词特征信 息, 利用逻辑 回归算法, 确定所述各召回的候选词的关键度, 提取所
述各召回的候选词中关键度大于第三预设阈值的各初选候选词。
8.根据权利要求1、 6或7所述的方法, 所述根据所述各初选候选词的概率, 确定目标候
选词, 包括:
根据所述各初选候选词的概率, 确定概率大于第四预设阈值的初选候选词作为目标候
选词。
9.根据权利要求8所述的方法, 所述利用所述目标候选词替换所述待纠错文本中的所
述错词, 包括:
针对第二句子中的第二错词, 选择所述第二错词对应的任一第二目标候选词, 所述第
二句子为任一句子;
利用该第二目标候选词替换 所述第二 错词, 得到第二句子对应的纠错句子;
将所述纠 错句子与所述第二句子进行冲突检测, 若存在冲突, 则返回执行所述选择所
述第二错词对应的任一第二目标候选词。
10.根据权利要求1或9所述的方法, 所述利用所述目标候选词替换所述待纠错文本中
的所述错词, 得到修 正文本, 包括:
利用所述目标候选词替换 所述待纠错文本中的所述 错词, 得到各纠错后的句子;
对所述各纠 错后的句子进行上下文分析, 在分析结果符合预设语义条件的情况下, 确
定所述各纠错后的句子组成修 正文本。
11.一种文本纠错装置, 包括:
错误检测模块, 被配置为获取待纠错文本, 对所述待纠错文本进行错误检测, 确定包含
错词的错 误文本片段;
召回模块, 被配置为对所述错词进行候选词召回, 确定所述错词对应的各初选候选词,
并获得所述错误文本片段对应的令牌信息和发音信息, 所述令牌信息为对 所述错误文本片
段中的所述 错词进行掩码处 理得到;
概率计算模块, 被配置为将所述令牌信息、 所述发音信息以及所述各初选候选词输入
预训练的语言模型, 得到所述错误文本片段中掩码位置处分别为所述各初选候选词的概
率, 所述语言模型基于第一语料样本及所述第一语料样本的发音信息, 对所述第一语料样
本中特定词语进行掩码形式的训练得到;
纠错模块, 被配置为根据 所述各初选候选词的概率, 确定目标候选词, 利用所述目标候
选词替换 所述待纠错文本中的所述 错词, 得到修 正文本。
12.一种计算设备, 包括:
存储器和处 理器;
所述存储器用于存储计算机可执行指令, 所述处理器用于执行所述计算机可执行指
令, 该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述文本纠错方法
的步骤。权 利 要 求 书 2/3 页
3
CN 114580382 A
3
专利 文本纠错方法以及装置
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:37上传分享