专利 图像识别方法、装置、电子设备、存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211041337.8 (22)申请日 2022.08.29 (71)申请人北京达佳互联信息技术有限公司地址 100085 北京市海淀区上地西路6号1 幢1层101D1-7 (72)发明人张恒　 (74)专利代理机构华进联合专利商标代理有限公司 44224 专利代理师陈金普 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/74(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称图像识别方法、装置、电子设备、存储介质 (57)摘要本公开关于一种图像识别方法、装置、电子设备、存储介质和计算机程序产品，所述方法包括：响应于携带有对象描述文本的图像识别请求，提取对象描述文本对应的目标文本特征；获取待识别图像对应的特征图，并从特征图中识别出至少一个对象所处图像区域对应的区域位置信息和区域图像特征；若各区域图像特征中具有与目标文本特征相匹配的目标区域图像特征，将目标区域图像特征对应的对象，作为对象描述文本所描述的目标对象；根据目标对象对应的区域位置信息和基于对象描述文本得到的文本标识信息，生成待识别图像的对象识别结果。采用本方法能够针对不同领域对象进行图像识别，有效抽取出视频数据中对象元素，提升了图像识别效率。权利要求书3页说明书16页附图4页 CN 115331150 A 2022.11.11 CN 115331150 A 1.一种图像识别方法，其特征在于，所述方法包括：响应于携带有对象描述文本的图像识别请求，提取所述对象描述文本对应的目标文本特征；获取待识别图像对应的特征图，并从所述特征图中识别出至少一个对象所处图像区域对应的区域位置信息和区域图像特征；所述区域图像特征为前景区域的图像特征；若各所述区域图像特征中具有与所述目标文本特征相匹配的目标区域图像特征，将所述目标区域图像特征对应的对象，作为所述对象描述文本所描述的目标对象；根据所述目标对象对应的区域位置信息和基于所述对象描述文本得到的文本标识信息，生成所述待识别图像的对象识别结果。 2.根据权利要求1所述的方法，其特征在于，所述响应于携带有对象描述文本的图像识别请求，提取所述对象描述文本对应的目标文本特征，包括：响应于图像识别请求，从所述图像识别请求中获取对象描述文本；将所述对象描述文本输入至预训练的文本编码模型，得到所述目标文本特征；所述预训练的文本编码模型为基于配对的样本文本和样本图像，结合待训练的文本编码模型与待训练的图像编码模型进行训练得到。 3.根据权利要求1所述的方法，其特征在于，所述获取待识别图像对应的特征图，并从所述特征图中识别出至少一个对象所处图像区域对应的区域位置信息和区域图像特征，包括：获取待识别图像，将所述待识别图像输入至预训练的特征图生成模型，得到所述特征图；将所述特征图输入至预训练的对象区域识别模型，得到所述至少一个对象所处图像区域对应的区域位置信息和区域图像特征；其中，所述预训练的特征图生成模型为结合所述预训练的对象区域识别模型和预训练的图像编码模型进行训练得到；所述预训练的图像编码模型在特征图生成模型的训练阶段用于输出第一图像特征，以调整经过待训练的特征图生成模型和所述预训练的对象区域识别模型处理后的第二图像特征；所述预训练的图像编码模型为基于配对的样本文本和样本图像，结合待训练的文本编码模型与待训练的图像编码模型进行训练得到。 4.根据权利要求1所述的方法，其特征在于，所述若各所述区域图像特征中具有与所述目标文本特征相匹配的目标区域图像特征，将所述目标区域图像特征对应的对象，作为所述对象描述文本所描述的目标对象，包括：获取图像特征空间和文本特征空间之间的映射关系；所述映射关系根据预训练的文本编码模型和预训练的图像编码模型得到；将所述目标文本特征作为所述文本特征空间中待匹配的文本特征，以及将各所述区域图像特征作为所述图像特征空间中待匹配的图像特征，根据所述映射关系，确定与所述目标文本特征相匹配的区域图像特征，作为所述目标区域图像特征，并将所述目标区域图像特征对应的对象，作为所述目标对象。 5.根据权利要求2或3所述的方法，其特征在于，所述预训练的图像编码模型和所述预训练的文本编码模型通过下述方法训练得到：获取第一训练数据；所述第一训练数据包括配对的样本文本和样本图像组成的正样权　利　要　求　书 1/3 页 2 CN 115331150 A 2本、未配对的样本文本和样本图像组成的负样本，所述配对的样本文本和样本图像包括不同领域对象的文本和图像；将所述第一训练数据输入至待训练的图像编码模型中进行编码，得到样本图像特征队列和所述正样本对应的样本图像特征；将所述第一训练数据输入至待训练的文本编码模型中进行编码，得到样本文本特征队列和所述正样本对应的样本文本特征；基于所述正样本对应的样本文本特征与所述样本图像特征队列，以及所述正样本对应的样本图像特征与所述样本文本特征队列，对所述待训练的图像编码模型和所述待训练的文本编码模型进行模型训练，得到所述预训练的图像编码模型和所述预训练的文本编码模型。 6.根据权利要求5所述的方法，其特征在于，所述基于所述正样本对应的样本文本特征与所述样本图像特征队列，以及所述正样本对应的样本图像特征与所述样本文本特征队列，对所述待训练的图像编码模型和所述待训练的文本编码模型进行模型训练，得到所述预训练的图像编码模型和所述预训练的文本编码模型，包括：根据所述正样本对应的样本文本特征和所述样本图像特征队列，确定第一相似度，并根据所述正样本对应的样本图像特征和所述样本文本特征队列，确定第二相似度；根据所述第一相似度和所述第二相似度，确定目标损失值；根据所述目标损失值调整所述待训练的图像编码模型中的模型参数，以及所述待训练的文本编码模型中的模型参数，直到满足第一训练结束条件，得到所述预训练的图像编码模型和所述预训练的文本编码模型；所述第一训练结束条件包括最大化同一配对的样本文本和样本图像的第一对比结果，且最小化未配对的样本文本和样本图像中不相关特征的第二对比结果。 7.根据权利要求3所述的方法，其特征在于，所述预训练的特征图生成模型通过下述方法训练得到：获取第二训练数据；所述第二训练数据包括携带有标注框信息的样本图像数据；将所述样本图像数据输入至待训练的特征图生成模型，得到样本特征图，并将所述样本特征图输入至所述预训练的对象区域识别模型，得到所述第二图像特征；获取根据所述标注框信息裁剪所述样本图像数据得到的标注区域图像，将所述标注区域图像输入至所述预训练的图像编码模型，得到所述第一图像特征；根据所述第一图像特征和所述第二图像特征的对齐结果，确定对齐损失值；根据所述对齐损失值调整所述待训练的特征图生成模型中的模型参数，直到满足第二训练结束条件，得到所述预训练的特征图生成模型；所述第二训练结束条件包括所述第一图像特征和所述第二图像特征在特征空间上是对齐的。 8.根据权利要求1所述的方法，其特征在于，在所述获取待识别图像对应的特征图，并从所述特征图中识别出至少一个对象所处图像区域对应的区域位置信息和区域图像特征的步骤之前，所述方法还包括：获取待处理视频，从所述待处理视频中确定目标视频帧集合；将所述目标视频帧集合中的各目标视频帧，作为所述待识别图像；在所述根据所述目标对象对应的区域位置信息和基于所述对象描述文本得到的文本标识信息，生成所述待识别图像的对象识别结果的步骤之后，所述方法还包括：权　利　要　求　书 2/3 页 3 CN 115331150 A 3

专利 图像识别方法、装置、电子设备、存储介质

专利图像识别方法、装置、电子设备、存储介质