standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210769935.0 (22)申请日 2022.06.30 (71)申请人 北京三快在线科技有限公司 地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人 张珂 杨峻伟 崔兆林 苏金明  罗钧峰 魏晓明 魏晓林  (74)专利代理 机构 北京三高永信知识产权代理 有限责任公司 1 1138 专利代理师 谢冬寒 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/772(2022.01) G06V 10/764(2022.01) G06V 10/26(2022.01)G06V 10/40(2022.01) G06V 10/74(2022.01) (54)发明名称 视觉感知模型训练方法、 装置、 设备及存储 介质 (57)摘要 本申请公开了一种视觉感知模 型训练方法、 装置、 设备及存储介质, 属于计算机视觉技术领 域。 该方法先获取多个单实例样本图像, 然后对 每个单实例样本图像分别进行第一数据增强处 理和第二数据增强处理, 得到第一处理图像和第 二处理图像, 对从多个单实例样 本图像中选取的 M个单实例样本图像进行拼接处理, 得到多实例 样本图像, 分别对第一处理图像、 多实例样本图 像、 第二处理图像和M个单实例样本图像进行特 征提取, 得到对应的图像特征, 基于这些图像特 征, 进行模型训练, 得到视觉感知模型。 由于训练 模型的图像特征不仅包括单实例样本图像的图 像特征, 还包括多实例样本图像的图像特征, 因 此, 可以提高模型的泛化能力。 权利要求书3页 说明书21页 附图5页 CN 115205628 A 2022.10.18 CN 115205628 A 1.一种视 觉感知模型训练方法, 其特 征在于, 所述方法包括: 获取多个单实例样本图像, 所述单实例样本图像中包括 一个对象; 对于每个单实例 样本图像, 对所述单实例样本图像分别进行第 一数据增强处理和第 二 数据增强处 理, 得到第一处 理图像和第二处 理图像; 从所述多个单实例样本图像 中选取M个单实例样本图像, 对所述M个单实例样本图像进 行拼接处 理, 得到多实例样本图像; 其中, M为大于1的正整数; 分别对所述第 一处理图像、 所述多实例样本图像、 所述第 二处理图像和所述M个单实例 样本图像进行特征提取, 得到第一图像特征、 第二图像特征、 第三图像特征和M个第四图像 特征; 基于所述第 一图像特征、 所述第 二图像特征、 所述第 三图像特征和所述M个第四图像特 征, 进行模型训练, 得到 视觉感知模型。 2.根据权利要求1所述的方法, 其特征在于, 所述第一数据增强处理包括: 第一全局增 强处理和第一局部裁剪处理; 第二数据增强处理包括: 第二全局增强处理和第二局部裁剪 处理; 所述第一处理图像包括: 第一全局图像和第一局部图像, 所述第二处理图像包括: 第 二全局图像和第二局部图像; 所述对所述单实例 样本图像分别进行第 一数据增强处理和第 二数据增强处理, 得到第 一处理图像和第二处 理图像, 包括: 对所述单实例样本图像分别进行第 一全局增强处理和第 一局部裁剪处理, 得到所述第 一全局图像和所述第一局部图像; 对所述单实例样本图像分别进行第 二全局增强处理和第 二局部裁剪处理, 得到所述第 二全局图像和所述第二局部图像; 其中, 所述第一局部图像和所述第二局部图像存在重叠 区域。 3.根据权利要求1所述的方法, 其特征在于, 所述对所述M个单实例样本 图像进行拼接 处理, 得到多实例样本图像, 包括: 对所述M个单实例样本图像分别进行第三全局 增强处理, 得到M个第三处 理图像; 对所述M个第三处 理图像进行拼接处 理, 得到所述多实例样本图像。 4.根据权利要求1所述的方法, 其特征在于, 所述第一处理图像包括: 第一全局图像和 第一局部图像, 所述第一图像特征包括: 所述第一全局图像的第一全局特征和所述第一局 部图像的第一局部特 征; 所述第一局部特 征包括: N个第一子特 征; 其中, N 为正整数; 对所述第一处 理图像进行 特征提取, 得到第一图像特 征的过程, 包括: 通过第一残差网络对所述第一全局图像进行 特征提取, 得到所述第一全局特 征; 通过所述第一残差网络对所述第一局部图像进行 特征提取, 得到第二局部特 征; 对所述第一局部图像的图像尺寸进行调整, 得到第三局部图像; 基于所述第三局部 图像的多个像素坐标, 对所述第二局部特征进行区域池化处理, 得 到N个第二子特 征; 对所述N个第 二子特征依次进行第 一卷积处理、 第 一修正处理和第二卷积处理, 得到所 述N个第一子特 征。 5.根据权利要求1所述的方法, 其特征在于, 对所述多实例样本 图像进行特征提取, 得 到第二图像特 征的过程, 包括:权 利 要 求 书 1/3 页 2 CN 115205628 A 2通过第一残差网络对所述多实例样本图像进行 特征提取, 得到第五图像特 征; 对所述第五图像特 征进行平均池化处 理, 得到M个第三子特 征; 对所述M个第三子特 征依次进行第二 修正处理和全连接处 理, 得到所述第二图像特 征。 6.根据权利要求1所述的方法, 其特征在于, 所述第一图像特征包括: 第一全局特征和 第一局部特 征, 所述第三图像特 征包括: 第二全局特 征和第二局部特 征; 所述基于所述第 一图像特征、 所述第 二图像特征、 所述第 三图像特征和所述M个第四图 像特征, 进行模型训练, 得到 视觉感知模型, 包括: 基于所述第一全局特 征和所述第二全局特 征, 构建第一损失函数; 基于所述第一局部特 征和所述第二局部特 征, 构建第二损失函数; 基于所述第二图像特 征和所述M个第四图像特 征, 构建第三损失函数; 基于所述第 一损失函数、 所述第 二损失函数和所述第 三损失函数, 进行模型训练, 得到 所述视觉感知模型。 7.根据权利要求6所述的方法, 其特征在于, 所述基于所述第三图像特征和所述M个第 四图像特 征, 构建第三损失函数, 包括: 构建第一正样本对, 所述第一正样本对包括所述第二图像特征和所述M个第 四图像特 征; 构建第一负 样本对, 所述第一负 样本对包括所述第二图像特 征和所述第二全局特 征; 确定第一相似度和第二相似度; 其中, 所述第一相似度用于衡量所述第二图像特征和 所述M个第四图像特征之间的相似性, 所述第二相似度用于衡量所述第二图像特征和所述 第二全局特 征之间的相似性; 基于所述第一相似度和所述第二相似度, 构建所述第三损失函数。 8.根据权利要求7 所述的方法, 其特 征在于, 确定第一相似度的过程, 包括: 对于每个第四图像特征, 确定所述第 二图像特征与所述第四图像特征之间的第 三相似 度, 得到M个第三相似度; 将M个第三相似度的和值确定为所述第一相似度。 9.根据权利要求6所述的方法, 其特征在于, 所述第一局部特征包括: N个第一子特征, 所述第二局部特 征包括: N个第四子特 征; 所述基于所述第一局部特 征和所述第二局部特 征, 构建第二损失函数, 包括: 构建第二正样本对, 所述第二正样本对包括所述N个第一子特征和所述N个第四子特 征; 构建第二负样本对, 所述第 二负样本对包括所述N个第 一子特征和第 三局部特征, 所述 第三局部特征是通过对第四局部图像进行特征提取得到的, 所述第四局部图像为与所述第 一局部图像不存在重 叠区域的图像; 确定第四相似度和第五相似度; 其中, 所述第四相似度用于衡量所述N个第 一子特征和 所述N个第四子特征之间的相似性, 所述第五相似度用于衡量所述N个第一子特征和所述第 三局部特 征之间的相似性; 基于所述第四相似度和所述第五相似度, 构建所述第二损失函数。 10.一种视 觉感知模型训练装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取多个单实例样本图像, 所述单实例样本图像中包括 一个对象;权 利 要 求 书 2/3 页 3 CN 115205628 A 3

PDF文档 专利 视觉感知模型训练方法、装置、设备及存储介质

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视觉感知模型训练方法、装置、设备及存储介质 第 1 页 专利 视觉感知模型训练方法、装置、设备及存储介质 第 2 页 专利 视觉感知模型训练方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:32:18上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。