standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210150760.5 (22)申请日 2022.02.18 (71)申请人 北京沃东天骏信息技 术有限公司 地址 100176 北京市大兴区北京经济技 术 开发区科创十一街18号院2号楼4层 A402室 申请人 北京京东世纪贸易有限公司 (72)发明人 张海楠 陈宏申 邹炎炎 丁卓冶 龙波 (74)专利代理 机构 中国贸促会专利商标事务所 有限公司 1 1038 专利代理师 孙玉 许蓓 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/211(2020.01)G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/51(2020.01) (54)发明名称 翻译模型的处理方法、 装置和计算机可读存 储介质 (57)摘要 本公开涉及一种翻译模 型的处理方法、 装置 和计算机可读存储介质, 涉及计算机技术领域。 本公开的方法包括: 获取多组训练语句, 其中, 每 组训练语句包括: 原语句和目标翻译语句; 针对 每组训练语句, 将原语句输入翻译模型的编码 器, 得到原语句的特征向量, 并将原语句的特征 向量输入翻译模 型的解码器; 针对解码器生成的 除句尾之外每个位置的词语, 确定该词语和该词 语之前的各个词语组成的已生成语句与 目标翻 译语句之间的语义相似度; 根据语义相似度选取 该词语或者目标翻译语句中与该词语相同位置 的词语生 成下一位置的词语; 根据解码器生成的 各个位置的词语组成的翻译语句与 目标翻译语 句的差异, 对翻译 模型进行训练。 权利要求书3页 说明书9页 附图4页 CN 114595701 A 2022.06.07 CN 114595701 A 1.一种翻译模型的处 理方法, 包括: 获取多组训练语句, 其中, 每组训练语句包括: 原语句和目标翻译语句; 针对每组训练语句, 将原语句输入翻译模型的编码器, 得到所述原语句的特征向量, 并 将所述原语句的特 征向量输入所述翻译模型的解码器; 针对所述解码器生成的除句尾之外每个位置的词语, 确定该词语和该词语之前的各个 词语组成的已生成语句与所述目标翻译语句之间的语义相似度; 根据所述语义相似度选取该词语或者所述目标翻译语句中与该词语相同位置的词语 生成下一 位置的词语; 根据所述解码器生成的各个位置的词语组成的翻译语句与所述目标翻译语句的差异, 对所述翻译模型进行训练。 2.根据权利要求1所述的处理方法, 其中, 所述确定该词语和该词语之前的各个词语组 成的已生成语句与所述目标翻译语句之间的语义相似度包括: 将该词语和该词语之前的各个词语组成的已生成语句与所述目标翻译语句作为语句 对, 输入基于转换器的双向编码表征BERT模型, 得到 输出所述语句对的特 征向量; 将所述语句对的特征向量输入激活函数模块, 得到所述已生成语句与 所述目标翻译语 句的语义相似度。 3.根据权利要求1所述的处理方法, 其中, 所述确定该词语和该词语之前的各个词语组 成的已生成语句与所述目标翻译语句之间的语义相似度包括: 生成随机数, 并将所述随机数与参考值对比, 其中, 所述参考值位于所述随机数的取值 范围内; 确定所述随机数是否小于所述参考值, 在小于所述参考值的情况下, 确定该词语和该 词语之前的各个词语组成的已生成语句与所述目标翻译语句之间的语义相似度。 4.根据权利要求3所述的处 理方法, 其中, 所述参考值随训练次数的增大而增大。 5.根据权利要求1所述的处理方法, 其中, 所述根据 所述语义相似度选取该词语或者所 述目标翻译语句中与该词语相同位置的词语生成下一 位置的词语包括: 在所述语义相似度高于阈值的情况 下, 根据该词语生成下一 位置的词语; 在所述语义相似度低于阈值的情况下, 根据 所述目标翻译语句中与 该词语相同位置的 词语生成下一 位置的词语。 6.根据权利要求5所述的处 理方法, 其中, 所述阈值随训练次数的增 加而增大。 7.根据权利要求1所述的处理方法, 其中, 所述解码器包括多个解码模块, 所述根据所 述语义相似度选取该词语或者所述目标翻译语句中与该词语相同位置的词语生成下一位 置的词语包括: 根据所述语义相似度选取该词语或者所述目标翻译语句中与 该词语相同位置的词语, 作为输入词语; 将该词语对应的解码模块输出的状态, 所述输入词语的词向量输入下一位置的词语对 应的解码模块, 得到 输出的下一 位置的词语。 8.根据权利要求1 ‑7任一项所述的处 理方法, 还 包括:权 利 要 求 书 1/3 页 2 CN 114595701 A 2将待翻译语句输入训练完成的翻译模型, 得到对应的翻译语句。 9.根据权利要求8所述的处理方法, 其中, 所述将待翻译语句输入训练完成的翻译模 型, 得到对应的翻译语句包括: 将所述待翻译语句输入翻译模型的编码器, 得到待翻译语句的特征向量, 并将待翻译 语句的特征向量输入所述翻译模型的解码器; 根据所述解码 器输出的每个位置上各个词语 的概率值, 选取预设数量的词语作为所述每 个位置的多个备选词语; 根据所述每个位置的多个备选词语, 生成所述每个位置的下一位置的多个备选词语, 直至达到句尾, 其中, 每 个位置的备选词语的数量相同; 利用所述解码器生成各个位置的备选词语组成多个备选翻译语句, 其中, 每个备选翻 译语句中的词语之间的生成是相关联的; 根据各个备选翻译语句的概率值选取一个备选翻译语句, 作为所述待翻译语句的翻译 语句。 10.根据权利要求9所述的处理方法, 其中, 所述根据所述解码器输出的每个位置上各 个词语的概 率值, 选取预设数量的词语作为所述每 个位置的多个备选词语包括: 针对所述解码器输出的所述每个位置上的各个词语, 根据 该词语的概率值以及与生成 该词语关联的之前 各个词语的概 率值, 确定该词语的选取概 率值; 根据所述解码器输出的所述每个位置上各个词语的选取概率值, 选取预设数量的词 语, 作为所述 解码器生成的所述每 个位置的多个备选词语。 11.根据权利要求9所述的处理方法, 其中, 所述根据各个备选翻译语句的概率值选取 一个备选翻译语句, 作为所述待翻译语句的翻译语句包括: 针对所述解码器生成的每个备选翻译语句, 根据该翻译语句中各个词语的概率值, 确 定各个备选翻译语句的概 率值; 选取概率值最大的备选翻译语句作为所述待翻译语句的翻译语句。 12.一种翻译模型的处 理装置, 包括: 获取模块, 用于获取多组训练语句, 其中, 每组训练语句包括: 原语句和目标翻译语句; 输入模块, 用于针对每组训练语句, 将原语句输入翻译模型的编码器, 得到所述原语句 的特征向量, 并将所述原语句的特 征向量输入所述翻译模型的解码器; 确定模块, 用于针对所述解码器生成的除句尾之外每个位置的词语, 确定该词语和该 词语之前的各个词语组成的已生成语句与所述目标翻译语句之间的语义相似度; 生成模块, 用于根据 所述语义相似度选取该词语或者所述目标翻译语句中与 该词语相 同位置的词语生成下一 位置的词语; 训练模块, 用于根据 所述解码器生成的各个位置的词语组成的翻译语句与 所述目标翻 译语句的差异, 对所述翻译模型进行训练。 13.根据权利要求12所述的处 理装置, 还 包括: 翻译模块, 用于将待翻译语句输入训练完成的翻译模型, 得到对应的翻译语句。 14.一种翻译模型的处 理装置, 包括: 处理器; 以及 耦接至所述处理器的存储器, 用于存储指令, 所述指令被所述处理器执行时, 使所述处 理器执行如权利要求1 ‑11任一项所述的翻译模型的处 理方法。权 利 要 求 书 2/3 页 3 CN 114595701 A 3
专利 翻译模型的处理方法、装置和计算机可读存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:32
上传分享
举报
下载
原文档
(738.7 KB)
分享
友情链接
DB52-T 1239.1-2017 政府数据 核心元数据 第1部分:人口基础数据 贵州省.pdf
DB52-T 1636.4-2021 机关事务云 第4部分:机关后勤管理数据 贵州省.pdf
DB23-T 3337—2022 黑龙江省超低能耗居住建筑节能设计标准 黑龙江省.pdf
GB-T 18771.3-2015 烟草术语 第3部分:烟用材料.pdf
全知科技 数据安全治理之数据安全风险评估白皮书 2021.pdf
GB-T 1871.5-2022 磷矿石和磷精矿中氧化镁含量的测定 火焰原子吸收光谱法、容量法和电感耦合等离子体发射光谱法.pdf
DB3303-T053-2022 公共机构节能管理规范 温州市.pdf
GA-T 1390.5-2017 信息安全技术 网络安全等级保护基本要求 第5部门 工业控制系统安全扩展要求.pdf
GB-T 16902.5-2017 设备用图形符号表示规则 第5部分:图标的设计指南.pdf
网络数据安全管理条例(征求意见稿).pdf
tc260 物联网安全标准化白皮书 2019.pdf
T-SCTIA 001—2021 团体标准制定程序规范.pdf
GB-T 18442.7-2017 固定式真空绝热深冷压力容器 第7部分:内容器应变强化技术规定.pdf
DB36-T 1346-2020 节能评估技术导则 中药制剂 江西省.pdf
GB-T 32161-2015 生态设计产品评价通则.pdf
GB-T 9465-2018 高空作业车.pdf
GB-T 36630.1-2018 信息安全技术 信息技术产品安全可控评价指标 第1部分:总则.pdf
GB-T 14406-2011 通用门式起重机.pdf
互联网信息服务算法推荐管理规定.pdf
GB-T 37400.1-2019 重型机械通用技术条件 第1部分:产品检验.pdf
1
/
17
评价文档
赞助2.5元 点击下载(738.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。