standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210999098.0 (22)申请日 2022.08.19 (71)申请人 清华大学深圳国际研究生院 地址 518000 广东省深圳市南 山区西丽大 学城清华校区 (72)发明人 梁耀元 唐彦嵩 樊家硕 黄绍伦  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 周翀 (51)Int.Cl. G06V 10/25(2022.01) G06N 3/04(2006.01) G06V 10/74(2022.01) G06V 10/77(2022.01) G06V 10/82(2022.01) (54)发明名称 目标识别方法及其模型、 电子设备、 存储介 质 (57)摘要 本申请涉及人工智能技术领域, 尤其是涉及 一种目标识别方法及其模型、 电子设备、 存储介 质。 本申请目标识别方法中, 需要先获取目标视 觉图像、 指代表达信息, 再根据目标视觉图像形 成图像特征向量, 并根据指代表达信息形成文本 特征向量, 进一步, 对图像特征向量与文本特征 向量进行相关性映射处理, 生成多模态特征序 列, 进而基于文本特征向量在 多模态特征序列中 进行语义相似度初始查询, 得到与目标物体对应 的特征描述向量, 最终基于特征描述向量与图像 特征向量, 在目标视觉图像中生成用于识别目标 物体的目标锚框,能够在视觉图像中对指代表达 所描述的物体做到较为精确的定位, 以提升目标 识别的准确率。 权利要求书2页 说明书11页 附图5页 CN 115496895 A 2022.12.20 CN 115496895 A 1.一种目标识别方法, 其特 征在于, 包括: 获取目标视觉 图像、 指代表达信息, 所述指代表达信息用于描述所述目标视觉 图像中 的目标物体; 根据所述目标视觉图像形成图像特征向量, 并根据 所述指代表达信 息形成文本特征向 量; 对所述图像特征向量与所述文本特征向量进行相关性映射处理, 生成多模态特征序 列; 基于所述文本特征向量在所述多模态特征序列中进行语义相似度初始查询, 得到与 所 述目标物体对应的特 征描述向量; 基于所述特征描述向量与 所述图像特征向量, 在所述目标视觉图像中生成用于识别所 述目标物体的目标锚框 。 2.根据权利要求1所述的方法, 其特征在于, 所述基于所述文本特征向量在所述多模态 特征序列中进行语义相似度初始查询, 得到与所述目标物体对应的特 征描述向量, 包括: 基于交叉注意力机制构建原型解码器, 所述原型解码器包括交叉注意力层; 将所述文本特征向量作为初始查询请求, 经由所述交叉注意力层在所述多模态特征序 列中进行 所述语义相似度初始查询, 得到所述特 征描述向量。 3.根据权利要求1所述的方法, 其特征在于, 所述基于所述特征描述向量与 所述图像特 征向量, 在所述目标视 觉图像中生成用于识别所述目标物体的目标锚框, 包括: 根据所述特 征描述向量与所述图像特 征向量, 得到锚框位置信息; 基于所述特征描述向量、 所述锚框位置信息与所述图像特征向量, 在所述多模态特征 序列中进行语义相似度优化 查询, 以迭代更新所述特 征描述向量与所述锚框位置信息; 当所述迭代更新符合预设条件, 基于所述迭代更新后的所述锚框位置信息, 在所述目 标视觉图像中生成所述目标锚框 。 4.根据权利要求3所述的方法, 其特征在于, 所述基于所述特征描述向量、 所述锚框位 置信息与所述图像特征向量, 在所述多模态特征序列中进行语义相似度优化查询, 以迭代 更新所述特 征描述向量与所述锚框位置信息, 包括: 每一轮所述迭代更新中, 基于所述特征描述向量在所述多模态特征序列中进行所述语 义相似度优化查询, 对所述特征描述向量进 行更新, 以及, 基于所述图像特征向量与更新后 的所述特 征描述向量, 对所述锚框位置信息进行 更新。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述图像特征向量与 更新后的所 述特征描述向量, 对所述锚框位置信息进行 更新, 包括: 基于所述图像特 征向量与更新后的所述特 征描述向量, 得到优化锚框信息; 将所述优化锚框信息与所述特 征描述向量进行比对, 得到预测偏移量; 基于所述预测偏移量对所述锚框位置信息进行 更新。 6.根据权利要求1至5任一项所述的方法, 其特征在于, 所述根据所述目标视觉 图像形 成图像特 征向量, 并根据所述指代 表达信息形成文本特 征向量, 包括: 对所述目标视 觉图像进行图像块编码, 得到所述图像特 征向量; 对所述指代 表达信息进行语义特 征提取, 得到所述文本特 征向量。 7.根据权利要求6所述的方法, 其特征在于, 所述对所述图像特征向量与所述文本特征权 利 要 求 书 1/2 页 2 CN 115496895 A 2向量进行相关性映射处 理, 生成多模态特 征序列, 包括: 基于自注意力机制构建多模态编码器, 所述多模态编码器包括多头自注意力层; 经由所述多头自注意力层, 根据所述图像特征向量与所述文本特征向量, 建立特征关 联信息; 根据所述特征关联信 息, 将所述图像特征向量与 所述文本特征向量拼接为所述多模态 特征序列。 8.一种目标识别模型, 其特 征在于, 包括: 数据获取模块, 用于获取目标视觉图像、 指代表达信息, 所述指代表达信息用于描述所 述目标视 觉图像中的目标物体; 多模态编码器, 用于根据所述目标视觉 图像形成图像特征向量, 并根据所述指代表达 信息形成文本特征向量, 以及, 对所述图像特征向量与所述文本特征向量进行相关性映射 处理, 生成多模态特 征序列; 原型解码器, 用以基于所述文本特征向量在所述多模态特征序列中进行语义相似度初 始查询, 得到与所述目标物体对应的特 征描述向量; 锚框解码器, 用以基于所述特征描述向量与所述图像特征向量, 在所述目标视觉 图像 中生成用于识别所述目标物体的目标锚框 。 9.一种电子设备, 其特征在于, 包括: 存储器、 处理器, 所述存储器存储有计算机程序, 所述处理器执行所述计算机程序时实现如权利要求1至7中任意 一项所述的目标识别方法。 10.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有程序, 所述程序被处 理器执行实现如权利要求1至7中任意 一项所述的目标识别方法。权 利 要 求 书 2/2 页 3 CN 115496895 A 3

PDF文档 专利 目标识别方法及其模型、电子设备、存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 目标识别方法及其模型、电子设备、存储介质 第 1 页 专利 目标识别方法及其模型、电子设备、存储介质 第 2 页 专利 目标识别方法及其模型、电子设备、存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:31:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。