专利 预训练语言模型的训练方法以及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210152672.9 (22)申请日 2022.02.18 (71)申请人阿里巴巴（中国）有限公司地址 310052 浙江省杭州市滨江区长河街道网商路69 9号4号楼5楼5 08室 (72)发明人陈谦　王雯　 (74)专利代理机构北京智信禾专利代理有限公司 11637 专利代理师赵杰 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称预训练语言模型的训练方法以及装置 (57)摘要本说明书实施例提供预训练语言模型的训练方法以及装置，其中预训练语言模型的训练方法包括：对样本文本中第一设定数值个字符进行掩码处理，获得掩码训练样本，然后基于掩码训练样本中非掩码字符的位置处的权重确定各个字符的增强语义向量，之后根据各个字符的增强语义向量，确定预训练语言模型的损失值，对预训练语言模型进行训练，从而完成语言模型的预训练过程。如此，计算掩码训练样本的各个字符的增强语义向量时，可以忽略被掩码字符位置处的权重，提高了预训练语言模型的收敛速度，避免了过度训练，并且提高了模型迁移能力，避免了被掩码字符较多时与下游任务不匹配的问题，从而提高下游任务的处理准确率。权利要求书3页说明书17页附图6页 CN 114579699 A 2022.06.03 CN 114579699 A 1.一种预训练语言模型的训练方法，包括：对样本文本中第一设定数值个字符进行掩码处理，获得掩码训练样本；将所述掩码训练样本输入预训练语言模型，通过所述预训练语言模型中的自注意力层确定所述掩码训练样本中各个字符的增强语义向量，其中，所述各个字符的增强语义向量为基于所述掩码训练样本中非掩码字符的位置处的权重确定得到；根据所述各个字符的增强语义向量，确定所述预训练语言模型的损失值，根据所述损失值调整所述预训练语言模型的模型参数，并返回执行所述对样本文本中第一设定数值个字符进行掩码处理，获得掩码训练样本的操作步骤，直至达到训练停止条件，获得预训练完成的预训练语言模型。 2.根据权利要求1所述的预训练语言模型的训练方法，所述通过所述预训练语言模型中的自注意力层确定所述掩码训练样本中各个字符的增强语义向量，包括：确定所述掩码训练样本中各个字符相对第一字符的权重，其中，所述第一字符为所述掩码训练样本中的任一字符，所述掩码训练样本中被掩码字符相对所述第一字符的权重为 0；基于所述各个字符相对第一字符的权重，确定所述掩码训练样本中第一字符的增强语义向量。 3.根据权利要求2所述的预训练语言模型的训练方法，所述确定所述掩码训练样本中各个字符相对第一字符的权重，包括：获取所述掩码训练样本中第一字符的查询向量、各个字符的键向量以及各个字符的值向量；将所述被掩码字符对应的键向量中各个向量元素置为0；分别对所述第一字符的查询向量与所述掩码训练样本中各个字符的键向量进行向量运算，获得所述各个字符相对第一字符的权重。 4.根据权利要求3所述的预训练语言模型的训练方法，所述确定所述掩码训练样本中各个字符相对第一字符的权重，包括：获取所述掩码训练样本中第一字符的查询向量、各个字符的键向量以及各个字符的值向量；分别对所述第一字符的查询向量与所述掩码训练样本中各个字符的键向量进行向量运算，获得所述各个字符相对第一字符的权重；将所述各个字符相对第一字符的权重中所述被掩码字符相对第一字符的权重置为0。 5.根据权利要求1 ‑4任一项所述的预训练语言模型的训练方法，所述对样本文本中第一设定数值个字符进行掩码处理，获得掩码训练样本，包括：将所述第一设定数值个字符中第一比例的字符替换为特定符号，将所述第一设定数值个字符中第二比例的字符替换为设定字符，并将所述第一设定数值个字符中第三比例的字符保持原始字符，获得所述掩码训练样本；其中，所述第一比例大于所述第二比例大于所述第三比例，且所述第一比例、所述第二比例和所述第三比例和为1。 6.根据权利要求1 ‑4任一项所述的预训练语言模型的训练方法，所述根据所述各个字符的增强语义向量，确定所述预训练语言模型的损失值，包括：权　利　要　求　书 1/3 页 2 CN 114579699 A 2将所述各个字符的增强语义向量输入所述预训练语言模型的分类层，获得所述被掩码字符对应的预测字符；根据所述被掩码字符对应的预测字符和所述被掩码字符，计算所述预训练语言模型的损失值。 7.根据权利要求1 ‑4任一项所述的预训练语言模型的训练方法，所述对样本文本中第一设定数值个字符进行掩码处理，获得掩码训练样本，包括：每对所述预训练语言模型训练第二设定数值轮后，将所述第一设定数值增大设定比例，其中，所述第一设定数值小于等于最大数值阈值。 8.根据权利要求1 ‑4任一项所述的预训练语言模型的训练方法，所述预训练语言模型包括至少两个自注意力层；所述将所述掩码训练样本输入预训练语言模型，通过所述预训练语言模型中的自注意力层确定所述掩码训练样本中各个字符的增强语义向量，包括：通过第一自注意力层确定所述掩码训练样本中各个字符的增强语义向量，其中，所述各个字符的增强语义向量为基于所述掩码训练样本中各个字符的位置处的权重确定得到；通过第二自注意力层确定所述掩码训练样本中各个字符的增强语义向量，其中，所述各个字符的增强语义向量为基于所述掩码训练样本中非掩码字符的位置处的权重确定得到，所述第二自注意力层相对于所述第一自注意力层靠近所述预训练语言模型中的分类层。 9.一种文本处理模型的训练方法，包括：获取训练样本，其中，所述训练样本携带样本标签；将所述训练样本输入文本处理模型的预训练语言模型，通过所述预训练语言模型的自注意力层确定所述训练样本的增强语义向量，其中，所述预训练语言模型通过上述权利要求1‑8任一项训练方法训练得到；将所述训练样本的增强语义向量输入所述文本处理模型的任务处理模型，获得所述训练样本对应的预测处理结果；根据所述预测处理结果和所述样本标签，计算所述文本处理模型的损失值，根据所述损失值调整所述预训练语言模型和任务处理模型的模型参数，并返回执行所述获取训练样本的操作步骤，直至达到训练停止条件，获得训练完成的文本处理模型。 10.一种预训练语言模型的训练装置，包括：处理模块，被配置为对样本文本中第一设定数值个字符进行掩码处理，获得掩码训练样本；第一确定模块，被配置为将所述掩码训练样本输入预训练语言模型，通过所述预训练语言模型中的自注意力层确定所述掩码训练样本中各个字符的增强语义向量，其中，所述各个字符的增强语义向量为基于所述掩码训练样本中非掩码字符的位置处的权重确定得到；第一调整模块，被配置为根据所述各个字符的增强语义向量，确定所述预训练语言模型的损失值，根据所述损失值调整所述预训练语言模型的模型参数，并返回执行所述对样本文本中第一设定数值个字符进行掩码处理，获得掩码训练样本的操作步骤，直至达到训练停止条件，获得预训练完成的预训练语言模型。权　利　要　求　书 2/3 页 3 CN 114579699 A 3

专利 预训练语言模型的训练方法以及装置

专利预训练语言模型的训练方法以及装置