(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210152672.9
(22)申请日 2022.02.18
(71)申请人 阿里巴巴 (中国) 有限公司
地址 310052 浙江省杭州市滨江区长河街
道网商路69 9号4号楼5楼5 08室
(72)发明人 陈谦 王雯
(74)专利代理 机构 北京智信禾专利代理有限公
司 11637
专利代理师 赵杰
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
预训练语言模型的训练方法以及装置
(57)摘要
本说明书实施例提供预训练语言模型的训
练方法以及装置, 其中预训练语言模 型的训练方
法包括: 对样本文本中第一设定数值个字符进行
掩码处理, 获得掩码训练样本, 然后基于掩码训
练样本中非掩码字符的位置处的权重确定各个
字符的增强语义向量, 之后根据各个字符的增强
语义向量, 确定预训练语言模型的损失值, 对预
训练语言模 型进行训练, 从而完成语 言模型的预
训练过程。 如此, 计算掩码训练样本的各个字符
的增强语义向量时, 可以忽略被掩码字符位置处
的权重, 提高了预训练语言模型的收敛速度, 避
免了过度训练, 并且提高了模型迁移能力, 避免
了被掩码 字符较多时与下游任务不匹配的问题,
从而提高下游任务的处 理准确率。
权利要求书3页 说明书17页 附图6页
CN 114579699 A
2022.06.03
CN 114579699 A
1.一种预训练语言模型的训练方法, 包括:
对样本文本中第一设定数值个字符进行掩码处 理, 获得掩码训练样本;
将所述掩码训练样本输入预训练语言模型, 通过所述预训练语言模型中的自注意力层
确定所述掩码训练样本中各个字符的增强语义向量, 其中, 所述各个字符的增强语义向量
为基于所述掩码训练样本中非掩码字符的位置处的权 重确定得到;
根据所述各个字符的增强语义向量, 确定所述预训练语言模型的损 失值, 根据所述损
失值调整 所述预训练语言模型的模型参数, 并返回执行所述对样本文本中第一设定数值个
字符进行掩码处理, 获得掩码训练样本的操作步骤, 直至达到训练停止条件, 获得预训练完
成的预训练语言模型。
2.根据权利要求1所述的预训练语言模型的训练方法, 所述通过所述预训练语言模型
中的自注意力层确定所述掩码训练样本中各个字符的增强语义向量, 包括:
确定所述掩码训练样本中各个字符相对第一字符的权重, 其中, 所述第一字符为所述
掩码训练样本中的任一字符, 所述掩码训练样本中被掩码字符相对所述第一字符的权重为
0;
基于所述各个字符相对第 一字符的权重, 确定所述掩码训练样本 中第一字符的增强语
义向量。
3.根据权利要求2所述的预训练语言模型的训练方法, 所述确定所述掩码训练样本中
各个字符相对第一字符的权 重, 包括:
获取所述掩码训练样本 中第一字符的查询向量、 各个字符的键向量以及各个字符的值
向量;
将所述被掩码字符对应的键向量中各个向量元 素置为0;
分别对所述第一字符的查询向量与所述掩码训练样本中各个字符的键向量进行向量
运算, 获得所述各个字符相对第一字符的权 重。
4.根据权利要求3所述的预训练语言模型的训练方法, 所述确定所述掩码训练样本中
各个字符相对第一字符的权 重, 包括:
获取所述掩码训练样本 中第一字符的查询向量、 各个字符的键向量以及各个字符的值
向量;
分别对所述第一字符的查询向量与所述掩码训练样本中各个字符的键向量进行向量
运算, 获得所述各个字符相对第一字符的权 重;
将所述各个字符相对第一字符的权 重中所述被掩码字符相对第一字符的权 重置为0。
5.根据权利要求1 ‑4任一项所述的预训练语言模型的训练方法, 所述对样本文本中第
一设定数值个字符进行掩码处 理, 获得掩码训练样本, 包括:
将所述第一设定数值个字符中第 一比例的字符替换为特定符号, 将所述第 一设定数值
个字符中第二比例的字符替换为设定字符, 并将所述第一设定数值个字符中第三比例的字
符保持原始字符, 获得 所述掩码训练样本;
其中, 所述第 一比例大于所述第 二比例大于所述第 三比例, 且所述第 一比例、 所述第二
比例和所述第三比例和为1。
6.根据权利要求1 ‑4任一项所述的预训练语言模型的训练方法, 所述根据所述各个字
符的增强语义向量, 确定所述预训练语言模型的损失值, 包括:权 利 要 求 书 1/3 页
2
CN 114579699 A
2将所述各个字符的增强语义向量输入所述预训练语言模型的分类层, 获得所述被掩码
字符对应的预测字符;
根据所述被掩码字符对应的预测字符和所述被掩码字符, 计算所述预训练语言模型的
损失值。
7.根据权利要求1 ‑4任一项所述的预训练语言模型的训练方法, 所述对样本文本中第
一设定数值个字符进行掩码处 理, 获得掩码训练样本, 包括:
每对所述预训练语言模型训练第二设定数值轮后, 将所述第一设定数值增大设定比
例, 其中, 所述第一设定数值小于等于最大 数值阈值。
8.根据权利要求1 ‑4任一项所述的预训练语言模型的训练方法, 所述预训练语言模型
包括至少两个自注意力层;
所述将所述掩码训练样本输入预训练语言模型, 通过所述预训练语言模型中的自注意
力层确定所述掩码训练样本中各个字符的增强语义向量, 包括:
通过第一自注意力层确定所述掩码训练样本中各个字符的增强语义向量, 其中, 所述
各个字符的增强语义向量 为基于所述掩码训练样本中各个字符的位置处的权 重确定得到;
通过第二自注意力层确定所述掩码训练样本中各个字符的增强语义向量, 其中, 所述
各个字符的增强语义向量为基于所述掩码训练样本中非掩码字符的位置处的权重确定得
到, 所述第二自注意力层相对于所述第一自注意力层靠近所述预训练语言模型中的分类
层。
9.一种文本处 理模型的训练方法, 包括:
获取训练样本, 其中, 所述训练样本携带样本标签;
将所述训练样本输入文本处理模型的预训练语言模型, 通过所述预训练语言模型的自
注意力层确定所述训练样本的增强语义向量, 其中, 所述预训练语言模型通过上述权利要
求1‑8任一项训练方法训练得到;
将所述训练样本的增强语义向量输入所述文本处理模型的任务处理模型, 获得所述训
练样本对应的预测处 理结果;
根据所述预测 处理结果和所述样本标签, 计算所述文本处理模型的损 失值, 根据所述
损失值调整所述预训练语言模型和任务处理模型的模型参数, 并返回执行所述获取训练样
本的操作步骤, 直至 达到训练停止条件, 获得训练完成的文本处 理模型。
10.一种预训练语言模型的训练装置, 包括:
处理模块, 被配置为对样本文本中第一设定数值个字符进行掩码处理, 获得掩码训练
样本;
第一确定模块, 被配置为将所述掩码训练样本输入预训练语言模型, 通过所述预训练
语言模型中的自注意力层确定所述掩码训练样本中各个字符的增强语义向量, 其中, 所述
各个字符的增强语义向量为基于所述掩码训练样本中非掩码字符的位置处的权重确定得
到;
第一调整模块, 被配置为根据所述各个字符的增强语义向量, 确定所述预训练语言模
型的损失值, 根据所述损失值调整所述预训练语言模型 的模型参数, 并返回执行所述对样
本文本中第一设定数值个字符进行掩码处理, 获得掩码训练样本的操作步骤, 直至达到训
练停止条件, 获得 预训练完成的预训练语言模型。权 利 要 求 书 2/3 页
3
CN 114579699 A
3
专利 预训练语言模型的训练方法以及装置
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:32上传分享