(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211041337.8
(22)申请日 2022.08.29
(71)申请人 北京达佳互联信息技 术有限公司
地址 100085 北京市海淀区上地西路6号1
幢1层101D1-7
(72)发明人 张恒
(74)专利代理 机构 华进联合专利商标代理有限
公司 44224
专利代理师 陈金普
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/82(2022.01)
G06V 10/74(2022.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
(54)发明名称
图像识别方法、 装置、 电子设备、 存 储介质
(57)摘要
本公开关于一种图像识别方法、 装置、 电子
设备、 存储介质和计算机程序产品, 所述方法包
括: 响应于携带有对象描述文本的图像识别请
求, 提取对象描述文本对应的目标文本特征; 获
取待识别图像对应的特征图, 并从特征图中识别
出至少一个对象所处图像区域对应的区域位置
信息和区域图像特征; 若各区域图像特征中具有
与目标文本特征相匹配的目标区域图像特征, 将
目标区域图像特征对应的对象, 作为对象描述文
本所描述的目标对象; 根据目标对象对应的区域
位置信息和基于对象描述文本得到的文本标识
信息, 生成待识别图像的对象识别结果。 采用本
方法能够针对不同领域对象进行图像识别, 有效
抽取出视频数据中对象元素, 提升了图像识别效
率。
权利要求书3页 说明书16页 附图4页
CN 115331150 A
2022.11.11
CN 115331150 A
1.一种图像识别方法, 其特 征在于, 所述方法包括:
响应于携带有对象描述文本的图像识别请求, 提取所述对象描述文本对应的目标文本
特征;
获取待识别图像对应的特征图, 并从所述特征图中识别出至少一个对象所处图像区域
对应的区域 位置信息和区域图像特 征; 所述区域图像特 征为前景区域的图像特 征;
若各所述 区域图像特征中具有与 所述目标文本特征相匹配的目标区域图像特征, 将所
述目标区域图像特 征对应的对象, 作为所述对象描述文本所描述的目标对象;
根据所述目标对象对应的区域位置信息和基于所述对象描述文本得到的文本标识信
息, 生成所述待识别图像的对象识别结果。
2.根据权利要求1所述的方法, 其特征在于, 所述响应于携带有对象描述文本的图像识
别请求, 提取 所述对象描述文本对应的目标文本特 征, 包括:
响应于图像识别请求, 从所述图像识别请求中获取对象描述文本;
将所述对象描述文本输入至预训练的文本编码模型, 得到所述目标文本特征; 所述预
训练的文本编 码模型为基于配对的样本文本和样本图像, 结合待训练的文本编 码模型与待
训练的图像编码模型进行训练得到 。
3.根据权利要求1所述的方法, 其特征在于, 所述获取待识别图像对应的特征图, 并从
所述特征图中识别出至少一个对象所 处图像区域对应的区域位置信息和区域图像特征, 包
括:
获取待识别图像, 将所述待识别图像输入至预训练的特征图生成模型, 得到所述特征
图;
将所述特征图输入至预训练 的对象区域识别模型, 得到所述至少一个对象所处图像区
域对应的区域 位置信息和区域图像特 征;
其中, 所述预训练的特征图生成模型为结合所述预训练 的对象区域识别模型和预训练
的图像编 码模型进行训练得到; 所述预训练的图像编 码模型在特征图生成模型的训练阶段
用于输出第一图像特征, 以调整 经过待训练的特征图生成模型和所述预训练的对象区域识
别模型处理后的第二图像特征; 所述预训练的图像编 码模型为基于配对的样本文本和样本
图像, 结合待训练的文本编码模型与待训练的图像编码模型进行训练得到 。
4.根据权利要求1所述的方法, 其特征在于, 所述若各所述 区域图像特征中具有与 所述
目标文本特征相匹配的目标区域图像特征, 将所述 目标区域图像特征对应的对 象, 作为所
述对象描述文本所描述的目标对象, 包括:
获取图像特征空间和文本特征空间之间的映射关系; 所述映射关系根据 预训练的文本
编码模型和预训练的图像编码模型 得到;
将所述目标文本特征作为所述文本特征空间中待 匹配的文本特征, 以及将各所述区域
图像特征作为所述图像特征空间中待匹配的图像特征, 根据所述映射关系, 确定与所述 目
标文本特征相匹配的区域图像特征, 作为所述 目标区域图像特征, 并将所述 目标区域图像
特征对应的对象, 作为所述目标对象。
5.根据权利要求2或3所述的方法, 其特征在于, 所述预训练的图像编码模型和所述预
训练的文本编码模型通过 下述方法训练得到:
获取第一训练数据; 所述第一训练数据包括配对的样本文本和样本图像组成的正样权 利 要 求 书 1/3 页
2
CN 115331150 A
2本、 未配对的样本文本和样本图像组成的负样本, 所述配对的样本文本和样本图像包括不
同领域对象的文本和图像;
将所述第一训练数据输入至待训练 的图像编码模型中进行编码, 得到样本图像特征队
列和所述 正样本对应的样本图像特 征;
将所述第一训练数据输入至待训练 的文本编码模型中进行编码, 得到样本文本特征队
列和所述 正样本对应的样本文本特 征;
基于所述正样本对应的样本文本特征与 所述样本图像特征队列, 以及所述正样本对应
的样本图像特征与所述样本文本特征队列, 对 所述待训练的图像编 码模型和所述待训练的
文本编码模型进 行模型训练, 得到所述预训练的图像编 码模型和所述预训练的文本编 码模
型。
6.根据权利要求5所述的方法, 其特征在于, 所述基于所述正样本对应的样本文本特征
与所述样本图像特征队列, 以及所述正样本对应的样本图像特征与所述样本文本特征队
列, 对所述待训练的图像编码模型和所述待训练的文本编码模型进行模型训练, 得到所述
预训练的图像编码模型和所述预训练的文本编码模型, 包括:
根据所述正样本对应的样本文本特征和所述样本 图像特征队列, 确定第一相似度, 并
根据所述 正样本对应的样本图像特 征和所述样本文本特 征队列, 确定第二相似度;
根据所述第一相似度和所述第二相似度, 确定目标损 失值; 根据所述目标损 失值调整
所述待训练的图像编码模型中的模型参数, 以及所述待训练的文本编码模型中的模型参
数, 直到满足第一训练结束条件, 得到所述预训练的图像编码模型和所述预训练的文本编
码模型; 所述第一训练结束条件包括最大化同一配对的样本文本和样本图像的第一对比结
果, 且最小化未配对的样本文本和样本图像中不相关特 征的第二对比结果。
7.根据权利要求3所述的方法, 其特征在于, 所述预训练 的特征图生成模型通过下述方
法训练得到:
获取第二训练数据; 所述第二训练数据包括携带有标注框信息的样本图像数据;
将所述样本 图像数据输入至待训练的特征图生成模型, 得到样本特征图, 并将所述样
本特征图输入至所述预训练的对象区域识别模型, 得到所述第二图像特 征;
获取根据 所述标注框信 息裁剪所述样本图像数据得到的标注区域图像, 将所述标注区
域图像输入至所述预训练的图像编码模型, 得到所述第一图像特 征;
根据所述第一图像特 征和所述第二图像特 征的对齐结果, 确定对齐损失值;
根据所述对齐损失值调整所述待训练 的特征图生成模型中的模型参数, 直到满足第 二
训练结束条件, 得到所述预训练的特征图生成模型; 所述第二训练结束条件包括所述第一
图像特征和所述第二图像特 征在特征空间上 是对齐的。
8.根据权利要求1所述的方法, 其特征在于, 在所述获取待识别图像对应的特征图, 并
从所述特征图中识别出至少一个对 象所处图像区域对应的区域位置信息和区域图像特征
的步骤之前, 所述方法还 包括:
获取待处 理视频, 从所述待处 理视频中确定目标视频帧集 合;
将所述目标视频帧集 合中的各目标视频帧, 作为所述待识别图像;
在所述根据所述目标对象对应的区域位置信息和基于所述对象描述文本得到的文本
标识信息, 生成所述待识别图像的对象识别结果的步骤之后, 所述方法还 包括:权 利 要 求 书 2/3 页
3
CN 115331150 A
3
专利 图像识别方法、装置、电子设备、存储介质
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:28上传分享