专利 视觉感知模型训练方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210769935.0 (22)申请日 2022.06.30 (71)申请人北京三快在线科技有限公司地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人张珂　杨峻伟　崔兆林　苏金明　罗钧峰　魏晓明　魏晓林　 (74)专利代理机构北京三高永信知识产权代理有限责任公司 1 1138 专利代理师谢冬寒 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/772(2022.01) G06V 10/764(2022.01) G06V 10/26(2022.01)G06V 10/40(2022.01) G06V 10/74(2022.01) (54)发明名称视觉感知模型训练方法、装置、设备及存储介质 (57)摘要本申请公开了一种视觉感知模型训练方法、装置、设备及存储介质，属于计算机视觉技术领域。该方法先获取多个单实例样本图像，然后对每个单实例样本图像分别进行第一数据增强处理和第二数据增强处理，得到第一处理图像和第二处理图像，对从多个单实例样本图像中选取的 M个单实例样本图像进行拼接处理，得到多实例样本图像，分别对第一处理图像、多实例样本图像、第二处理图像和M个单实例样本图像进行特征提取，得到对应的图像特征，基于这些图像特征，进行模型训练，得到视觉感知模型。由于训练模型的图像特征不仅包括单实例样本图像的图像特征，还包括多实例样本图像的图像特征，因此，可以提高模型的泛化能力。权利要求书3页说明书21页附图5页 CN 115205628 A 2022.10.18 CN 115205628 A 1.一种视觉感知模型训练方法，其特征在于，所述方法包括：获取多个单实例样本图像，所述单实例样本图像中包括一个对象；对于每个单实例样本图像，对所述单实例样本图像分别进行第一数据增强处理和第二数据增强处理，得到第一处理图像和第二处理图像；从所述多个单实例样本图像中选取M个单实例样本图像，对所述M个单实例样本图像进行拼接处理，得到多实例样本图像；其中， M为大于1的正整数；分别对所述第一处理图像、所述多实例样本图像、所述第二处理图像和所述M个单实例样本图像进行特征提取，得到第一图像特征、第二图像特征、第三图像特征和M个第四图像特征；基于所述第一图像特征、所述第二图像特征、所述第三图像特征和所述M个第四图像特征，进行模型训练，得到视觉感知模型。 2.根据权利要求1所述的方法，其特征在于，所述第一数据增强处理包括：第一全局增强处理和第一局部裁剪处理；第二数据增强处理包括：第二全局增强处理和第二局部裁剪处理；所述第一处理图像包括：第一全局图像和第一局部图像，所述第二处理图像包括：第二全局图像和第二局部图像；所述对所述单实例样本图像分别进行第一数据增强处理和第二数据增强处理，得到第一处理图像和第二处理图像，包括：对所述单实例样本图像分别进行第一全局增强处理和第一局部裁剪处理，得到所述第一全局图像和所述第一局部图像；对所述单实例样本图像分别进行第二全局增强处理和第二局部裁剪处理，得到所述第二全局图像和所述第二局部图像；其中，所述第一局部图像和所述第二局部图像存在重叠区域。 3.根据权利要求1所述的方法，其特征在于，所述对所述M个单实例样本图像进行拼接处理，得到多实例样本图像，包括：对所述M个单实例样本图像分别进行第三全局增强处理，得到M个第三处理图像；对所述M个第三处理图像进行拼接处理，得到所述多实例样本图像。 4.根据权利要求1所述的方法，其特征在于，所述第一处理图像包括：第一全局图像和第一局部图像，所述第一图像特征包括：所述第一全局图像的第一全局特征和所述第一局部图像的第一局部特征；所述第一局部特征包括： N个第一子特征；其中， N 为正整数；对所述第一处理图像进行特征提取，得到第一图像特征的过程，包括：通过第一残差网络对所述第一全局图像进行特征提取，得到所述第一全局特征；通过所述第一残差网络对所述第一局部图像进行特征提取，得到第二局部特征；对所述第一局部图像的图像尺寸进行调整，得到第三局部图像；基于所述第三局部图像的多个像素坐标，对所述第二局部特征进行区域池化处理，得到N个第二子特征；对所述N个第二子特征依次进行第一卷积处理、第一修正处理和第二卷积处理，得到所述N个第一子特征。 5.根据权利要求1所述的方法，其特征在于，对所述多实例样本图像进行特征提取，得到第二图像特征的过程，包括：权　利　要　求　书 1/3 页 2 CN 115205628 A 2通过第一残差网络对所述多实例样本图像进行特征提取，得到第五图像特征；对所述第五图像特征进行平均池化处理，得到M个第三子特征；对所述M个第三子特征依次进行第二修正处理和全连接处理，得到所述第二图像特征。 6.根据权利要求1所述的方法，其特征在于，所述第一图像特征包括：第一全局特征和第一局部特征，所述第三图像特征包括：第二全局特征和第二局部特征；所述基于所述第一图像特征、所述第二图像特征、所述第三图像特征和所述M个第四图像特征，进行模型训练，得到视觉感知模型，包括：基于所述第一全局特征和所述第二全局特征，构建第一损失函数；基于所述第一局部特征和所述第二局部特征，构建第二损失函数；基于所述第二图像特征和所述M个第四图像特征，构建第三损失函数；基于所述第一损失函数、所述第二损失函数和所述第三损失函数，进行模型训练，得到所述视觉感知模型。 7.根据权利要求6所述的方法，其特征在于，所述基于所述第三图像特征和所述M个第四图像特征，构建第三损失函数，包括：构建第一正样本对，所述第一正样本对包括所述第二图像特征和所述M个第四图像特征；构建第一负样本对，所述第一负样本对包括所述第二图像特征和所述第二全局特征；确定第一相似度和第二相似度；其中，所述第一相似度用于衡量所述第二图像特征和所述M个第四图像特征之间的相似性，所述第二相似度用于衡量所述第二图像特征和所述第二全局特征之间的相似性；基于所述第一相似度和所述第二相似度，构建所述第三损失函数。 8.根据权利要求7 所述的方法，其特征在于，确定第一相似度的过程，包括：对于每个第四图像特征，确定所述第二图像特征与所述第四图像特征之间的第三相似度，得到M个第三相似度；将M个第三相似度的和值确定为所述第一相似度。 9.根据权利要求6所述的方法，其特征在于，所述第一局部特征包括： N个第一子特征，所述第二局部特征包括： N个第四子特征；所述基于所述第一局部特征和所述第二局部特征，构建第二损失函数，包括：构建第二正样本对，所述第二正样本对包括所述N个第一子特征和所述N个第四子特征；构建第二负样本对，所述第二负样本对包括所述N个第一子特征和第三局部特征，所述第三局部特征是通过对第四局部图像进行特征提取得到的，所述第四局部图像为与所述第一局部图像不存在重叠区域的图像；确定第四相似度和第五相似度；其中，所述第四相似度用于衡量所述N个第一子特征和所述N个第四子特征之间的相似性，所述第五相似度用于衡量所述N个第一子特征和所述第三局部特征之间的相似性；基于所述第四相似度和所述第五相似度，构建所述第二损失函数。 10.一种视觉感知模型训练装置，其特征在于，所述装置包括：获取模块，用于获取多个单实例样本图像，所述单实例样本图像中包括一个对象；权　利　要　求　书 2/3 页 3 CN 115205628 A 3

专利 视觉感知模型训练方法、装置、设备及存储介质

专利视觉感知模型训练方法、装置、设备及存储介质