专利 文本纠错方法以及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210129335.8 (22)申请日 2022.02.11 (71)申请人阿里巴巴（中国）有限公司地址 310052 浙江省杭州市滨江区长河街道网商路69 9号4号楼5楼5 08室 (72)发明人曹迪　邓憧　 (74)专利代理机构北京智信禾专利代理有限公司 11637 专利代理师张小娜 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/226(2020.01) G06F 16/33(2019.01) G06F 40/30(2020.01) (54)发明名称文本纠错方法以及装置 (57)摘要本说明书实施例提供了文本纠错方法以及装置，其中，文本纠错方法包括：对待纠错文本进行错误检测，识别出错误文本片段，并通过召回得到错词对应的各初选候选词，根据错误文本片段对应的令牌信息和发音信息，利用预训练的语言模型结合掩码处理，得到错误文本片段中掩码位置处分别为各初选候选词的概率，根据各初选候选词的概率，能够确定出用来替换错词的目标候选词，然后利用目标候选词替换掉待纠错文本中的错词，即可得到准确的修正文本，提升了文本纠错的准确性，并且，利用预训练的语言模型结合掩码处理，提升了文本纠错的效率。权利要求书3页说明书15页附图4页 CN 114580382 A 2022.06.03 CN 114580382 A 1.一种文本纠错方法，包括：获取待纠错文本，对所述待纠错文本进行错误检测，确定包含错词的错误文本片段；对所述错词进行候选词召回，确定所述错词对应的各初选候选词，并获得所述错误文本片段对应的令牌信息和发音信息，所述令牌信息为对所述错误文本片段中的所述错词进行掩码处理得到；将所述令牌信息、所述发音信息以及所述各初选候选词输入预训练的语言模型，得到所述错误文本片段中掩码位置处分别为所述各初选候选词的概率，所述语言模型基于第一语料样本及所述第一语料样本的发音信息，对所述第一语料样本中特定词语进行掩码形式的训练得到；根据所述各初选候选词的概率，确定目标候选词，利用所述目标候选词替换所述待纠错文本中的所述错词，得到修正文本。 2.根据权利要求1所述的方法，所述获取待纠错文本，包括：获取音频数据；对所述音频数据进行识别，得到待纠错文本。 3.根据权利要求1或2所述的方法，在所述对所述待纠错文本进行错误检测，确定包含错词的错误文本片段之前，还包括：对所述待纠错文本进行预处理，获得所述待纠错文本中的各句子；所述对所述待纠错文本进行错误检测，确定包含错词的错误文本片段，包括：对所述各句子分别进行错误检测，确定所述各句子中包含错词的错误文本片段。 4.根据权利要求3所述的方法，所述对所述各句子分别进行错误检测，确定所述各句子中包含错词的错误文本片段，包括：获得第一句子的发音信息，所述第一句子为所述各句子中的任一句子；将所述第一句子及所述发音信息输入预训练的错误检测模型，得到所述第一句子中每个字的正确率值，所述错误检测模型基于第二语料样本及所述第二语料样本的发音信息训练得到；根据所述每个字的正确率值，确定所述第一句子中的第一错词；按照预设的文本片段提取方式，确定所述第一错词和所述第一错词的相邻词语组成的第一错误文本片段。 5.根据权利要求4所述的方法，所述根据所述每个字的正确率值，确定所述第一句子中的第一错词，包括：根据所述每个字的正确率值，确定正确率值小于第一预设阈值的目标字；在预设的近音限制词表查找相邻的目标字组成的目标词语；若查找到，则确定所述目标词语为所述第一句子中的第一错词。 6.根据权利要求1所述的方法，所述对所述错词进行候选词召回，确定所述错词对应的各初选候选词，包括：利用预设的候选词召回方式，对所述错词进行候选词召回；获得所述错词的第一发音信息以及各召回的候选词的第二发音信息，确定各第二发音信息与所述第一发音信息的相似度；获得相似度大于第二预设阈值的各初选候选词。权　利　要　求　书 1/3 页 2 CN 114580382 A 27.根据权利要求1所述的方法，所述对所述错词进行候选词召回，确定所述错词对应的各初选候选词，包括：利用预设的候选词召回方式，对所述错词进行候选词召回；基于所述待纠错文本，确定各召回的候选词的词特征信息；根据所述词特征信息，利用逻辑回归算法，确定所述各召回的候选词的关键度，提取所述各召回的候选词中关键度大于第三预设阈值的各初选候选词。 8.根据权利要求1、 6或7所述的方法，所述根据所述各初选候选词的概率，确定目标候选词，包括：根据所述各初选候选词的概率，确定概率大于第四预设阈值的初选候选词作为目标候选词。 9.根据权利要求8所述的方法，所述利用所述目标候选词替换所述待纠错文本中的所述错词，包括：针对第二句子中的第二错词，选择所述第二错词对应的任一第二目标候选词，所述第二句子为任一句子；利用该第二目标候选词替换所述第二错词，得到第二句子对应的纠错句子；将所述纠错句子与所述第二句子进行冲突检测，若存在冲突，则返回执行所述选择所述第二错词对应的任一第二目标候选词。 10.根据权利要求1或9所述的方法，所述利用所述目标候选词替换所述待纠错文本中的所述错词，得到修正文本，包括：利用所述目标候选词替换所述待纠错文本中的所述错词，得到各纠错后的句子；对所述各纠错后的句子进行上下文分析，在分析结果符合预设语义条件的情况下，确定所述各纠错后的句子组成修正文本。 11.一种文本纠错装置，包括：错误检测模块，被配置为获取待纠错文本，对所述待纠错文本进行错误检测，确定包含错词的错误文本片段；召回模块，被配置为对所述错词进行候选词召回，确定所述错词对应的各初选候选词，并获得所述错误文本片段对应的令牌信息和发音信息，所述令牌信息为对所述错误文本片段中的所述错词进行掩码处理得到；概率计算模块，被配置为将所述令牌信息、所述发音信息以及所述各初选候选词输入预训练的语言模型，得到所述错误文本片段中掩码位置处分别为所述各初选候选词的概率，所述语言模型基于第一语料样本及所述第一语料样本的发音信息，对所述第一语料样本中特定词语进行掩码形式的训练得到；纠错模块，被配置为根据所述各初选候选词的概率，确定目标候选词，利用所述目标候选词替换所述待纠错文本中的所述错词，得到修正文本。 12.一种计算设备，包括：存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述文本纠错方法的步骤。权　利　要　求　书 2/3 页 3 CN 114580382 A 3

专利 文本纠错方法以及装置

专利文本纠错方法以及装置