专利 分类模型的训练方法，装置和计算机可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210674953.0 (22)申请日 2022.06.15 (71)申请人北京沃东天骏信息技术有限公司地址 100176 北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层 A402室申请人北京京东世纪贸易有限公司 (72)发明人杨一博　王睿彬　 (74)专利代理机构中国贸促会专利商标事务所有限公司 1 1038 专利代理师孙玉　许蓓 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/74(2022.01) G06V 10/764(2022.01) (54)发明名称分类模型的训练方法，装置和计算机可读存储介质 (57)摘要本公开涉及一种分类模型的训练方法，装置和计算机可读存储介质，涉及人工智能技术领域。本公开的方法包括：将用于训练的样本划分为多个子批，其中，每个子批包括一个或多个样本；将每个子批的样本输入分类模型，确定每个子批对应的分类误差相对于分类模型的初始化参数的梯度向量；根据每个子批对应的梯度向量，确定目标函数的值，其中，目标函数与分类模型的分类损失负相关；在目标函数的值未达到最大值的情况下，根据目标函数调整分类模型的初始化参数；直至目标函数的值达到最大值，将分类模型的初始化参数作为优化后的初始化参数，并对具有优化后的初始化参数的分类模型进行训练。权利要求书4页说明书13页附图3页 CN 114997318 A 2022.09.02 CN 114997318 A 1.一种分类模型的训练方法，包括：将用于训练的样本划分为多个子批，其中，每个子批包括一个或多个样本；将每个子批的样本输入分类模型，确定所述每个子批对应的分类误差相对于所述分类模型的初始化参数的梯度向量；根据所述每个子批对应的梯度向量，确定目标函数的值，其中，所述目标函数与所述分类模型的分类损失负相关；在所述目标函数的值未达到最大值的情况下，根据所述目标函数调整所述分类模型的初始化参数；直至所述目标函数的值达到最大值，将所述分类模型的初始化参数作为优化后的初始化参数，并对具有所述优化后的初始化参数的所述分类模型进行训练。 2.根据权利要求1所述的训练方法，其中，所述目标函数包括第一子函数和第二子函数中至少一个，所述根据所述每个子批对应的梯度向量，确定目标函数的值包括以下至少一项：根据所述每个子批对应的梯度向量，确定所述每个子批对应的梯度向量的模长，根据所述每个子批对应的梯度向量的模长确定所述第一子函数的值；根据所述每个子批对应的梯度向量，确定每两个子批对应的梯度向量的相似度，根据所述每两个子批对应的梯度向量的相似度确定所述第二子函数的值。 3.根据权利要求2所述的训练方法，其中，所述根据所述每个子批对应的梯度向量的模长确定所述第一子函数的值包括：根据所述每个子批对应的梯度向量的模长确定平均模长，作为所述第一子函数的值。 4.根据权利要求2所述的训练方法，其中，所述根据所述每个子批对应的梯度向量，确定每两个子批对应的梯度向量的相似度，根据所述每两个子批对应的梯度向量的相似度确定所述第二子函数的值包括：根据所述每个子批对应的梯度向量，确定每两个子批对应的梯度向量的余弦相似度；根据所述每两个子批对应的梯度向量的余弦相似度确定平均余弦相似度，作为所述第二子函数的值。 5.根据权利要求2所述的训练方法，其中，所述目标函数还包括所述每个子批对应的梯度向量的模长中的最大模长不超过预设值的条件。 6.根据权利要求2所述的训练方法，其中，所述目标函数采用以下方法确定：对所述分类模型的分类损失函数进行优化曲面分析，确定评价指标函数，其中，所述评价指标函数为确定所述分类模型的分类损失的上限的函数；根据所述评价指标函数确定所述目标函数。 7.根据权利要求6所述的训练方法，其中，所述评价指标函数包括确定每个子批对应梯度向量的模长的最大模长的第三子函数，确定每两个子批对应的梯度向量之间的相似度的第四子函数，以及确定每个子批对应的优化后的初始化参数的最大模长和最小模长的比值的第五子函数，所述根据所述评价指标函数确定所述目标函数包括：根据所述第三子函数确定所述目标函数中所述每个子批对应的梯度向量的模长中的最大模长不超过预设值的条件；根据所述第四子函数确定所述第二子函数；权　利　要　求　书 1/4 页 2 CN 114997318 A 2通过利用所述初始化参数的一阶梯度和每个子批对应的梯度向量来逼近每个子批对应的优化后的初始化参数，将所述第五子函数转换为所述第一子函数。 8.根据权利要求4所述的训练方法，其中，所述每两个子批对应的梯度向量的余弦相似度为所述每两个子批对应的梯度向量的点乘与所述每两个子批对应的梯度向量的模长的比值。 9.根据权利要求1所述的训练方法，其中，所述根据所述目标函数调整所述分类模型的初始化参数包括：确定所述目标函数相对于上一周期的调整向量的梯度值；根据上一周期的调整向量，所述梯度值和学习率，确定当前周期的调整向量；根据当前周期的调整向量与上一周期所述分类模型的初始化参数，确定当前周期所述分类模型的初始化参数。 10.根据权利要求9所述的训练方法，其中，将当前周期的调整向量与上一周期所述分类模型的初始化参数的乘积，作为当前周期所述分类模型的初始化参数。 11.根据权利要求1所述的训练方法，其中，将所述每个子批中每个样本对应的分类误差相对于所述分类模型的初始化参数的梯度向量的平均梯度向量，作为所述每个子批对应的分类误差相对于所述分类模型的初始化参数的梯度向量。 12.根据权利要求1所述的训练方法，其中，所述将用于训练的样本划分为多个子批包括：根据所述样本的数量、子批的个数、以及子批之间的重叠率，确定每个子批中样本的数量。 13.根据权利要求1所述的训练方法，其中，所述对具有所述优化后的初始化参数的所述分类模型进行训练包括：将所述样本输入具有所述优化后的初始化参数的所述分类模型，得到分类结果；根据所述分类结果和所述训练样本的标注信息，确定分类损失；根据所述分类损失以及分类损失函数，调整所述分类模型的参数，直至完成训练。 14.根据权利要求1所述的训练方法，其中，所述分类模型为图像分类模型，将用于训练的样本图像划分为多个子批，其中，每个子批包括一个或多个样本图像；将每个子批的样本图像输入图像分类模型，确定所述每个子批对应的图像分类误差相对于所述图像分类模型的初始化参数的梯度向量；根据所述每个子批对应的梯度向量，确定目标函数的值，其中，所述目标函数与所述图像分类模型的图像分类损失负相关；在所述目标函数的值未达到最大值的情况下，根据所述目标函数调整所述图像分类模型的初始化参数；直至所述目标函数的值达到最大值，将所述图像分类模型的初始化参数作为优化后的初始化参数，并对具有所述优化后的初始化参数的所述图像分类模型进行训练。 15.根据权利要求1所述的训练方法，其中，所述分类模型为文本分类模型，将用于训练的样本文本划分为多个子批，其中，每个子批包括一个或多个样本文本；将每个子批的样本文本输入文本分类模型，确定所述每个子批对应的文本分类误差相权　利　要　求　书 2/4 页 3 CN 114997318 A 3

专利 分类模型的训练方法，装置和计算机可读存储介质

专利分类模型的训练方法，装置和计算机可读存储介质