专利 基于IBMmodel的语料过滤方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210095739.X (22)申请日 2022.01.26 (71)申请人四川语言桥信息技术有限公司地址 610000 四川省成都市中国（四川）自由贸易试验区成都高新区天府大道北段1288号1幢1单元801、 802、 80 3号 (72)发明人朱宪超　吴阳剑　 (74)专利代理机构北京知果之信知识产权代理有限公司 1 1541 代理人高科 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称基于IBMmodel的语料过滤方法及装置 (57)摘要本发明提供一种基于IBMmodel的语料过滤方法及装置，通过搜集目标语言的海量训练语料，包含原文和其对应的标准译文；对原文和其对应的标准译文进行分词，得到第一集合；将所述第一集合输入IBMModel模型中训练，得出词对齐概率分布和词位置对齐概率分布；将需要过滤的目标语料进行分词处理，得到第二集合；根据所述词对齐概率分布和词位置对齐概率分布，计算所述第二集合中语言对之间的对齐概率得分；通过所述对齐概率得分判断是否过滤语料。使用这种方法，可以对语言对之间的语义是否一致进行判断，从而达到高效过滤脏数据的效果。权利要求书2页说明书8页附图2页 CN 114429123 A 2022.05.03 CN 114429123 A 1.一种基于IBM Model的语料过滤方法，其特征在于，包括：搜集目标语言的海量训练语料，包含原文和其对应的标准译文；对原文和其对应的标准译文进行分词，得到第一集合；将所述第一集合输入IBM Model模型中训练，得出词对齐概率分布和词位置对齐概率分布；将需要过滤的目标语料进行分词处理，得到第二集合；根据所述词对齐概率分布和词位置对齐概率分布，计算所述第二集合中语言对之间的对齐概率得分；通过所述对齐概率得分判断是否过滤语料。 2.根据权利要求1所述的基于IBMmodel的语料过滤方法，其特征在于，将所述第一集合输入IBM Model模型中训练，得出词对齐概率分布和词位置对齐概率分布，包括：步骤1：对第一集合中所有语言对的词对齐概率分布和词位置对齐概率分布进行初始化处理，得到词对齐初始值和词位置对齐初始值；步骤2：根据所有语言对的词对齐初始值计算词对齐概率分布的总和，根据所有语言对的词位置对齐初始值计算词位置对齐概率分布的总和；步骤3：基于词对齐概率分布的总和，以及词位置对齐分布的总和，重新计算词对齐概率分布和词位置对齐概率分布；步骤4：重复步骤2、 3，直至所述词对齐概率分布和词位置对齐概率分布不再变化为止。 3.根据权利要求1所述的基于IBMmodel的语料过滤方法，其特征在于，所述根据所述词对齐概率分布和词位置对齐概率分布，计算所述第二集合中语言对之间的对齐概率得分，包括：通过所述词对齐概率分布和词位置对齐概率分布，计算第一对齐函数； a＝argmaxaP(a|E,F) 其中， a代表对齐函数， E和F分别代表原文和译文分词后的词向量E＝[e1,e2,e3, ……, em]T,F＝[f1,f2,f3, ……,fn]T， argmax代表寻找具有最大评分的参量， argmaxaP(aE,F)代表寻找对齐函数使得P(aE,F)值最大， P(a|E,F)代表原文译文的词对齐概率分布和词位置对齐概率分布的乘积。 4.根据权利要求3所述的基于IBMmodel的语料过滤方法，其特征在于，所述根据所述词对齐概率分布和词位置对齐概率分布，计算所述第二集合中语言对之间的对齐概率得分，包括：将第一集合中的原文和译文进行位置倒置；将倒置后的第一集合输入IBM Model模型中，得出新的词对齐概率分布和词位置对齐概率分布；基于新的词对齐概率分布和词位置对齐概率分布，计算第二对齐函数。 5.根据权利要求4所述的基于IBMmodel的语料过滤方法，其特征在于，所述根据所述词对齐概率分布和词位置对齐概率分布，计算所述第二集合中语言对之间的对齐概率得分，包括：基于第一对齐函数和第二对齐函数，计算第二集合中语言对之间的对齐概率得分；权　利　要　求　书 1/2 页 2 CN 114429123 A 2其中， score代表对齐概率得分， n代表译文词数量， m代表原文词数量， P(ea(i)|fi)代表第二集合中译文第i个词与原文中相对应的词ea(i)的词对齐概率， P(fra(j)|ej)代表位置倒置后的第二集合中译文第j个词与原文中相对应的词fra(j)的词对齐概率， P(a(i)|i,m,n)代表第二集合中译文第i个位置与原文第a(i)个位置对齐的位置对齐概率， P(ra(j)|j,m,n) 代表位置倒置后的第二集合中译文第j个位置与原文第ra(j)个位置对齐的位置对齐概率。 6.根据权利要求5所述的基于IBMmodel的语料过滤方法，其特征在于，通过所述对齐概率得分判断是否过滤语料，包括：如果所述对齐概率得分大于或者等于预设阈值，则判定为不需要过滤的语料；如果所述对齐概率得分小于预设阈值，则判定为需要过滤的语料。 7.一种基于IBM Model的语料过滤装置，其特征在于，包括：搜集模块，用于搜集目标语言的海量训练语料，包含原文和其对应的标准译文；第一分词模块，用于对原文和其对应的标准译文进行分词，得到第一集合；概率分布计算模块，用于将所述第一集合输入IBM Model模型中训练，得出词对齐概率分布和词位置对齐概率分布；第二分词模块，用于将需要过滤的目标语料进行分词处理，得到第二集合；概率得分计算模块，用于根据所述词对齐概率分布和词位置对齐概率分布，计算所述第二集合中语言对之间的对齐概率得分；判断模块，用于通过所述对齐概率得分判断是否过滤语料。 8.根据权利要求7所述的基于IBMmodel的语料过滤装置，其特征在于，所述概率分布计算模块，包括：概率分布初始化单元，用于对第一集合中所有语言对的词对齐概率分布和词位置对齐概率分布进行初始化处理，得到词对齐初始值和词位置对齐初始值；第一计算单元，用于根据所有语言对的词对齐初始值计算词对齐概率分布的总和，根据所有语言对的词位置对齐初始值计算词位置对齐概率分布的总和；第二计算单元，用于基于词对齐概率分布的概率总和，以及词位置对齐分布的概率总和，重新计算词对齐概率分布和词位置对齐概率分布；重复执行单元，用于重复执行第一计算单元和第二计算单元，直至所述词对齐概率分布和词位置对齐概率分布不再变化为止。 9.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任意一项所述的方法的步骤。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至 6任意一项所述的方法的步骤。权　利　要　求　书 2/2 页 3 CN 114429123 A 3

专利 基于IBMmodel的语料过滤方法及装置

专利基于IBMmodel的语料过滤方法及装置