(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210095739.X
(22)申请日 2022.01.26
(71)申请人 四川语言桥信息技 术有限公司
地址 610000 四川省成 都市中国 (四川) 自
由贸易试验区成都高新区天府大道北
段1288号1幢1单 元801、 802、 80 3号
(72)发明人 朱宪超 吴阳剑
(74)专利代理 机构 北京知果之信知识产权代理
有限公司 1 1541
代理人 高科
(51)Int.Cl.
G06F 40/216(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
(54)发明名称
基于IBMmodel的语料过滤方法及装置
(57)摘要
本发明提供一种基于IBMmodel的语料过滤
方法及装置, 通过搜集目标语言的海量训练语
料, 包含原文和其对应的标准译文; 对原文和其
对应的标准译文进行分词, 得到第一集合; 将所
述第一集合输入IBMModel模型中训练, 得出词对
齐概率分布和词位置对齐概率分布; 将需要 过滤
的目标语料进行分词处理, 得到第二集合; 根据
所述词对齐概率分布和词位置对齐概率分布, 计
算所述第二集合中语言对之间的对齐概率得分;
通过所述对齐概率得分判断是否过滤语料。 使用
这种方法, 可以对语言对之间的语义是否一致进
行判断, 从而达 到高效过滤脏数据的效果。
权利要求书2页 说明书8页 附图2页
CN 114429123 A
2022.05.03
CN 114429123 A
1.一种基于IBM Model的语料 过滤方法, 其特 征在于, 包括:
搜集目标语言的海量训练语料, 包 含原文和其对应的标准译 文;
对原文和其对应的标准译 文进行分词, 得到第一 集合;
将所述第一集合输入IBM Model模型中训练, 得出词对齐概率分布和词位置对齐概率
分布;
将需要过 滤的目标语料进行分词处 理, 得到第二 集合;
根据所述词对齐概率分布和词位置对齐概率分布, 计算所述第 二集合中语言对之间的
对齐概率得分;
通过所述对齐概 率得分判断是否过 滤语料。
2.根据权利 要求1所述的基于IBMmodel的语料过滤方法, 其特征在于, 将所述第一集合
输入IBM Model模型中训练, 得 出词对齐概 率分布和词位置对齐概 率分布, 包括:
步骤1: 对第一集合中所有语言对的词对齐概率分布和词位置对齐概率分布进行初始
化处理, 得到词对齐初始值和词位置对齐初始值;
步骤2: 根据所有语言对的词对齐初始值计算词对齐概率分布的总和, 根据所有语言对
的词位置对齐初始值计算词位置对齐概 率分布的总和;
步骤3: 基于词对齐概率分布 的总和, 以及词位置对齐分布的总和, 重新计算词对齐概
率分布和词位置对齐概 率分布;
步骤4: 重复步骤2、 3, 直至所述词对齐概 率分布和词位置对齐概 率分布不再变化 为止。
3.根据权利 要求1所述的基于IBMmodel的语料过滤方法, 其特征在于, 所述根据所述词
对齐概率分布和词位置对齐概率分布, 计算所述第二集合中语言对之间的对齐概率得分,
包括:
通过所述词对齐概 率分布和词位置对齐概 率分布, 计算第一对齐函数;
a=argmaxaP(a|E,F)
其中, a代表对齐函数, E和F分别代表原文和译文分词后的词向量E=[e1,e2,e3, ……,
em]T,F=[f1,f2,f3, ……,fn]T, argmax代表寻找具有最大评分的参量, argmaxaP(aE,F)代
表寻找对齐函数使得P(aE,F)值最大, P(a|E,F)代表原文译文的词对齐概率分布和词位置
对齐概率分布的乘积。
4.根据权利 要求3所述的基于IBMmodel的语料过滤方法, 其特征在于, 所述根据所述词
对齐概率分布和词位置对齐概率分布, 计算所述第二集合中语言对之间的对齐概率得分,
包括:
将第一集合中的原文和译 文进行位置倒置;
将倒置后的第一集合输入IBM Model模型中, 得出新的词对齐概率分布和词位置对齐
概率分布;
基于新的词对齐概 率分布和词位置对齐概 率分布, 计算第二对齐函数。
5.根据权利 要求4所述的基于IBMmodel的语料过滤方法, 其特征在于, 所述根据所述词
对齐概率分布和词位置对齐概率分布, 计算所述第二集合中语言对之间的对齐概率得分,
包括:
基于第一对齐函数和第二对齐函数, 计算第二 集合中语言对之间的对齐概 率得分;权 利 要 求 书 1/2 页
2
CN 114429123 A
2其中, score代表对齐概率得分, n代表译文词数量, m代表原文词数量, P(ea(i)|fi)代表
第二集合中译文第i个词与原文中相对应的词ea(i)的词对齐概率, P(fra(j)|ej)代表位置倒
置后的第二集合中译文第j个词与原 文中相对应的词fra(j)的词对齐概率, P(a(i)|i,m,n)代
表第二集合中译文第i个位置与原文第a(i)个位置对齐的位置对齐概率, P(ra(j)|j,m,n)
代表位置倒置后的第二 集合中译文第j个位置与原文第ra(j)个位置对齐的位置对齐概 率。
6.根据权利 要求5所述的基于IBMmodel的语料过滤方法, 其特征在于, 通过所述对齐概
率得分判断是否过 滤语料, 包括:
如果所述对齐概 率得分大于或者 等于预设阈值, 则判定为 不需要过 滤的语料;
如果所述对齐概 率得分小于预设阈值, 则判定为需要过 滤的语料。
7.一种基于IBM Model的语料 过滤装置, 其特 征在于, 包括:
搜集模块, 用于 搜集目标语言的海量训练语料, 包 含原文和其对应的标准译 文;
第一分词模块, 用于对原文和其对应的标准译 文进行分词, 得到第一 集合;
概率分布计算模块, 用于将所述第一集合输入IBM Model模型中训练, 得出词对齐概率
分布和词位置对齐概 率分布;
第二分词模块, 用于将需要过 滤的目标语料进行分词处 理, 得到第二 集合;
概率得分计算模块, 用于根据所述词对齐概率分布和词位置对齐概率分布, 计算所述
第二集合中语言对之间的对齐概 率得分;
判断模块, 用于通过 所述对齐概 率得分判断是否过 滤语料。
8.根据权利 要求7所述的基于IBMmodel的语料过滤装置, 其特征在于, 所述概率分布计
算模块, 包括:
概率分布初始化单元, 用于对第 一集合中所有语言对的词对齐概率分布和词位置对齐
概率分布进行初始化处 理, 得到词对齐初始值和词位置对齐初始值;
第一计算单元, 用于根据所有语言对的词对齐初始值计算词对齐概率分布的总和, 根
据所有语言对的词位置对齐初始值计算词位置对齐概 率分布的总和;
第二计算单元, 用于基于词对齐概率分布的概率总和, 以及词位置对齐分布的概率总
和, 重新计算词对齐概 率分布和词位置对齐概 率分布;
重复执行单元, 用于重复执行第一计算单元和第二计算单元, 直至所述词对齐概率分
布和词位置对齐概 率分布不再变化 为止。
9.一种计算机设备, 包括存储器和 处理器, 所述存储器存储有可在处理器上运行的计
算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至6任意一项所
述的方法的步骤。
10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序
被处理器执行时实现权利要求1至 6任意一项所述的方法的步骤。权 利 要 求 书 2/2 页
3
CN 114429123 A
3
专利 基于IBMmodel的语料过滤方法及装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:44上传分享