standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210114304.5 (22)申请日 2022.01.30 (71)申请人 天津大学 地址 300072 天津市南 开区卫津路9 2号 (72)发明人 熊德意 李上杰  (74)专利代理 机构 天津市北洋 有限责任专利代 理事务所 12 201 专利代理师 李素兰 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/242(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 3/08(2006.01) (54)发明名称 一种无监督神经机器翻译的语码转换词汇 交叠增强方法 (57)摘要 本发明公开了一种无监督神经机器翻译的 语码转换词汇交叠增强方法, 包括词典生成、 过 滤和文本语码转换三个处理阶段, 步骤1、 词典生 成: 选取最相似的词汇, 生成初始词典Vinit; 步骤 2、 过滤初始词典Vinit中存在的噪声; 步骤3、 文本 语码转换: 利用高质量最终词典模型Vfiltered对 文本进行语码转换, 即将源语言端的词完全替换 为最终词典模型Vfiltered中相对应的目标语言端 的词, 在之后的无监督翻译模型训练, 使用这种 文本语码转换之后的语料。 与现有技术相比, 本 发明能够缓解无监督翻译中, 远距离语 言对没有 共享词汇的缺点, 提高两种语言的相似性, 从而 提高无监 督翻译模型的性能。 权利要求书1页 说明书4页 附图3页 CN 114492476 A 2022.05.13 CN 114492476 A 1.一种无监督神经机器翻译的语码转换词汇交叠增强方法, 其特征在于, 包括词典生 成、 过滤和文本语码转换三个处 理阶段, 该 方法具体包括以下步骤: 步骤1、 词典生成: 使用Vecmap工具, 对基于fastText训练得到的单语词向量进行映射, 将两种语言的向量空间映射到同一空间; 接下来, 利用CSLS距离度量方法, 计算不同语言词 汇之间的相似度, 选取最相似的词汇, 生成初始词典Vinit; 步骤2、 过 滤初始词典Vinit中存在的噪声; 步骤3、 文本语码转换: 利用高质量最终词典模型Vfiltered对文本进行语码转换, 即将源 语言端的词完全替 换为最终词典模型Vfiltered中相对应的目标语言端的词, 在之后的无监督 翻译模型训练, 使用这种文本语码转换之后的语料。 2.如权利要求1所述的基于摄像头和云端实时地图的自动紧急制动系统, 其特征在于, 超参数τ值越 大, 词典中符合要求的词对数量越少, 同时词典的准确度也越高, 优选将 τ设为 0.3。 3.如权利要求1所述的一种基于摄像头和云端实时地图的自动紧急制动系统, 其特征 在于, 步骤2的过 滤采用以下两种原则的结合: 步骤2.1、 阈值过滤原则: 基于超参数τ进行阈值过滤, 得到过滤词典模型Vthres, 表示如 下: Vthres={(ws, wt)|CSLS(ws, wt)>τ, (ws, wt)∈Vinit 其中, wt表示目标端词汇, ws表示源端词汇; 根据CSLS的相似性度量, 确定词典中词典的质量; 步骤2.2、 最优相互匹配原则: 在生成两种语言的初始词典Vinit及过滤词典Vthres的过程 中, 词典模型是独立建立, 因而获得两个翻译方向相反的词典, 最优相互匹配原则将结合两 个词典中的词对, 仅保留那些同时在两个词典中存在的词对齐结果。权 利 要 求 书 1/1 页 2 CN 114492476 A 2一种无监督神经机 器翻译的语码转换词 汇交叠增强方 法 技术领域 [0001]本发明属于自然语言处理技术领域, 提出了一种受认知启发的学习自然语言处理 任务的分类法框架。 背景技术 [0002]神经机器翻译(NMT)近年来在机器翻译领域展现出了优异的性能, 成为机器翻译 的主流方法。 但是, 神经机器翻译模型的训练需要 大规模的平行语料, 平行语料的获得是非 常困难的, 需要昂贵的人工成本, 而且对于许多小语种而言, 人工标注数据常常是不可行 的。 这为神经机器翻译模型的普及带来了 重大的阻碍 。 [0003]无监督神经机器翻译技术只需要利用单语数据, 这种数据可以通过网络爬虫轻易 地获得, 数量远远超过平行语料, 获取成本也 非常地小。 无监督神经机器翻译通过子词技术 (如BPE)实现不同语言中形态相同的单词共享词向量权重, 通过编码 器的参数共享。 利用现 有的语言模型预训练方法(如MLM), 隐式地用同一语义空间表示不同语言中语义相 似的单 词, 并且利用去噪任务(Denoise  Task)、 反 向翻译技术(Back ‑Translation)实现模型性 能 的进一步提升。 当前无监督翻译技术在相似语言对, 如英语 ‑法语和英语 ‑德语上的性能已 经和监督翻译模型相去不远。 虽然无监督翻译技术在一些语言对上取得了突破性的进展, 如英语‑法语和英语 ‑德语, 但对于远距离语言对, 无监督翻译技术的性能非常低下, 如英 语‑汉语。 无监督神经机器翻译技术的一大特点就是很好地利用了两种语言之间单词 形态 上的相似性, 天然地进行一些词汇迁移和共享, 而这个优势在形态上完全不相似的语言之 间是不存在的, 远距离语言对之间的无监督翻译模型不能获得充分的词汇共享信息, 在训 练过程中, 不存在持续性的对齐信号, 无法隐式地对齐两个语言的语义空间, 从而导致了模 型翻译性能的匮乏。 此外, 远距离语言对往往伴随着词汇、 语序的不同, 这会为多语言语言 模型的训练构成很大 的困难, 导致语言模型的表现更差, 训练得到的跨语言嵌入表示的性 能不佳。 [0004]无监督跨语言嵌入以嵌入空间同构为假设前提, 提出利用一个正交线性映射即以 无监督的方式将两个单语嵌入空间映射到一个共享语义空间, 为无监督翻译模型、 无监督 词典生成都提供了可 行的研究路线。 发明内容 [0005]本发明旨在 提出一种无监督神经机器翻译的语码转换词汇交叠增强方法, 针对不 同语言词汇之间最相似的词汇, 实现文本语码转换, 将源语言端的词完全替换为相对应的 目标语言端的词。 [0006]本发明采用以下的技 术方案来实现: 。 [0007]一种无监督神经机器翻译的语码转换词汇交叠增强方法, 包括词典生成、 过滤和 文本语码转换三个处 理阶段, 该 方法具体包括以下步骤: [0008]步骤1、 词典生成: 使用Vecmap工具, 对基于fastText训练得到的单语词向量进行说 明 书 1/4 页 3 CN 114492476 A 3

PDF文档 专利 一种无监督神经机器翻译的语码转换词汇交叠增强方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种无监督神经机器翻译的语码转换词汇交叠增强方法 第 1 页 专利 一种无监督神经机器翻译的语码转换词汇交叠增强方法 第 2 页 专利 一种无监督神经机器翻译的语码转换词汇交叠增强方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:39上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。