(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210674953.0
(22)申请日 2022.06.15
(71)申请人 北京沃东天骏信息技 术有限公司
地址 100176 北京市大兴区北京经济技 术
开发区科创十一街18号院2号楼4层
A402室
申请人 北京京东世纪贸易有限公司
(72)发明人 杨一博 王睿彬
(74)专利代理 机构 中国贸促会专利商标事务所
有限公司 1 1038
专利代理师 孙玉 许蓓
(51)Int.Cl.
G06K 9/62(2022.01)
G06V 10/74(2022.01)
G06V 10/764(2022.01)
(54)发明名称
分类模型的训练方法, 装置和计算机可读存
储介质
(57)摘要
本公开涉及一种分类模 型的训练方法, 装置
和计算机可读存储介质, 涉及人工智能技术领
域。 本公开的方法包括: 将用于训练的样本划分
为多个子批, 其中, 每个子批包括一个或多个样
本; 将每个子批的样本输入分类模型, 确定每个
子批对应的分类误差相对于分类模型的初始化
参数的梯度向量; 根据每个子批对应的梯度向
量, 确定目标函数的值, 其中, 目标函数与分类模
型的分类损失负相关; 在目标函数的值未达到最
大值的情况下, 根据目标函数调整分类模型的初
始化参数; 直至目标函数的值达到最大值, 将分
类模型的初始化参数作为优化后的初始化参数,
并对具有优化后的初始化参数的分类模型进行
训练。
权利要求书4页 说明书13页 附图3页
CN 114997318 A
2022.09.02
CN 114997318 A
1.一种分类模型的训练方法, 包括:
将用于训练的样本划分为多个子 批, 其中, 每 个子批包括一个或多个样本;
将每个子批的样本输入分类模型, 确定所述每个子批对应的分类误差相对于所述分类
模型的初始化 参数的梯度向量;
根据所述每个子批对应的梯度向量, 确定目标函数的值, 其中, 所述目标函数与所述分
类模型的分类损失负相关;
在所述目标函数的值未达到最大值的情况下, 根据 所述目标函数调 整所述分类模型的
初始化参数;
直至所述目标函数的值达到最大值, 将所述分类模型的初始化参数作为优化后的初始
化参数, 并对具有所述优化后的初始化 参数的所述分类模型进行训练。
2.根据权利要求1所述的训练方法, 其中, 所述目标函数包括第 一子函数和第 二子函数
中至少一个, 所述根据所述每个子批对应的梯度向量, 确定目标函数 的值包括以下至少一
项:
根据所述每个子批对应的梯度向量, 确定所述每个子批对应的梯度向量的模长, 根据
所述每个子批对应的梯度向量的模长确定所述第一子函数的值;
根据所述每个子批对应的梯度向量, 确定每两个子批对应的梯度向量的相似度, 根据
所述每两个子 批对应的梯度向量的相似度确定所述第二子函数的值。
3.根据权利要求2所述的训练方法, 其中, 所述根据 所述每个子批对应的梯度向量的模
长确定所述第一子函数的值包括:
根据所述每 个子批对应的梯度向量的模长确定平均模长, 作为所述第一子函数的值。
4.根据权利要求2所述的训练方法, 其中, 所述根据所述每个子批对应的梯度向量, 确
定每两个子批对应的梯度向量的相似度, 根据所述每两个子批对应的梯度向量的相似度确
定所述第二子函数的值包括:
根据所述每 个子批对应的梯度向量, 确定每两个子 批对应的梯度向量的余弦相似度;
根据所述每两个子批对应的梯度向量的余弦相似度确定平均余弦相似度, 作为所述第
二子函数的值。
5.根据权利要求2所述的训练方法, 其中, 所述目标函数还包括所述每个子批对应的梯
度向量的模长中的最大模长不超过 预设值的条件。
6.根据权利要求2所述的训练方法, 其中, 所述目标函数采用以下 方法确定:
对所述分类模型的分类损失函数进行优化曲面分析, 确定评价指标函数, 其中, 所述评
价指标函数为确定所述分类模型的分类损失的上限的函数;
根据所述评价指标函数确定所述目标函数。
7.根据权利要求6所述的训练方法, 其中, 所述评价指标函数包括确定每个子批对应梯
度向量的模长的最大模长的第三子函数, 确定每两个子批对应的梯度向量之间的相似度的
第四子函数, 以及确定每个子批对应的优化后的初始化参数的最大模长和最小模长的比值
的第五子函数, 所述 根据所述评价指标函数确定所述目标函数包括:
根据所述第三子函数确定所述目标函数中所述每个子批对应的梯度向量的模长中的
最大模长不超过 预设值的条件;
根据所述第四子函数确定所述第二子函数;权 利 要 求 书 1/4 页
2
CN 114997318 A
2通过利用所述初始化参数的一阶梯度和每个子批对应的梯度向量来逼近每个子批对
应的优化后的初始化 参数, 将所述第五子函数转换为所述第一子函数。
8.根据权利要求4所述的训练方法, 其中, 所述每两个子批对应的梯度向量的余弦相似
度为所述每两个子批对应的梯度向量的点乘与所述每两个子批对应的梯度向量的模长的
比值。
9.根据权利要求1所述的训练方法, 其中, 所述根据 所述目标函数调 整所述分类模型的
初始化参数包括:
确定所述目标函数相对于上一周期的调整向量的梯度值;
根据上一周期的调整向量, 所述梯度值和学习率, 确定当前周期的调整向量;
根据当前周期的调 整向量与 上一周期所述分类模型的初始化参数, 确定当前周期所述
分类模型的初始化 参数。
10.根据权利要求9所述的训练方法, 其中, 将当前周期的调整向量与上一周期所述分
类模型的初始化 参数的乘积, 作为当前周期所述分类模型的初始化 参数。
11.根据权利要求1所述的训练方法, 其中,
将所述每个子批中每个样本对应的分类误差相对于所述分类模型的初始化参数的梯
度向量的平均梯度向量, 作为所述每个子批对应的分类误差相对于所述分类模型的初始 化
参数的梯度向量。
12.根据权利要求1所述的训练方法, 其中, 所述将用于训练的样本划分为多个子批包
括:
根据所述样本的数量、 子批的个数、 以及子批之间的重叠率, 确定每个子批 中样本的数
量。
13.根据权利要求1所述的训练方法, 其中, 所述对具有所述优化后的初始化参数的所
述分类模型进行训练包括:
将所述样本 输入具有所述优化后的初始化 参数的所述分类模型, 得到分类结果;
根据所述分类结果和所述训练样本的标注信息, 确定分类损失;
根据所述分类损失以及分类损失函数, 调整所述分类模型的参数, 直至 完成训练。
14.根据权利要求1所述的训练方法, 其中, 所述分类模型为图像分类模型,
将用于训练的样本图像划分为多个子 批, 其中, 每 个子批包括一个或多个样本图像;
将每个子批的样本图像输入图像分类模型, 确定所述每个子批对应的图像分类误差相
对于所述图像分类模型的初始化 参数的梯度向量;
根据所述每个子批对应的梯度向量, 确定目标函数的值, 其中, 所述目标函数与所述图
像分类模型的图像分类损失负相关;
在所述目标函数的值未达到最大值的情况下, 根据 所述目标函数调 整所述图像分类模
型的初始化 参数;
直至所述目标函数的值达到最大值, 将所述图像分类模型的初始化参数作为优化后的
初始化参数, 并对具有所述优化后的初始化 参数的所述图像分类模型进行训练。
15.根据权利要求1所述的训练方法, 其中, 所述分类模型为文本分类模型,
将用于训练的样本文本划分为多个子 批, 其中, 每 个子批包括一个或多个样本文本;
将每个子批的样本文本输入文本分类模型, 确定所述每个子批对应的文本分类误差相权 利 要 求 书 2/4 页
3
CN 114997318 A
3
专利 分类模型的训练方法,装置和计算机可读存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:35上传分享