standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211004837.4 (22)申请日 2022.08.22 (71)申请人 宏龙科技 (杭州) 有限公司 地址 310000 浙江省杭州市滨江区长河街 道秋溢路399号3号楼3 03室 申请人 杭州联汇科技股份有限公司 (72)发明人 张璐 陆骁鹏 赵天成 刘鹏  刘全  (74)专利代理 机构 杭州知见专利代理有限公司 33295 专利代理师 卢金元 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于跨模态算法的关键词推荐方法 (57)摘要 本发明公开了一种基于跨模态算法的关键 词推荐方法, 该方法的过程为: 使用者在图片中 框选感兴趣的目标,利用多模态向量化模型或多 模态目标识别模 型对框选区域进行向量化, 用向 量在大词表中进行匹配, 对匹配结果进行排序获 得推荐列表。 本发明方法能够作为开放词表的无 限类识别模 型的辅助, 在用户不知 道应该采用什 么关键词作为识别标签时, 给出推荐。 权利要求书1页 说明书4页 附图1页 CN 115359291 A 2022.11.18 CN 115359291 A 1.一种基于跨模态算法的关键词推荐方法, 其特 征在于, 包括以下步骤: S1、 获取感兴趣的目标并向量化: 首先由用户对示例图片进行标注反馈, 在图中框选出 希望进行识别的目标物体, 得到用户反馈的目标物体框, 之后使用目标识别模型来对图片 进行识别处理, 得到候选目标识别框以及每个候选目标识别框对应的特征向量, 最后将交 并比大于交并比阈值的候选目标识别框记为目标识别模型物体框纳入匹配列表; S2、 通过相似度匹配从大规模目标物体列表中获得 备选关键词; S3、 对备选关键词进行排序并推荐。 2.根据权利要求1所述的一种基于跨模态算法的关键词推荐方法, 其特征在于, 所述使 用目标识别模型来对图片进行识别处理使用基于跨模态的目标识别模型进行目标识别和 向量编码, 具体为: 识别出图片中可能为识别目标的区域作为候选目标识别 框, 同时每个候选目标识别 框 都得到一个代 表其特征的向量; 基于跨模态的目标识别模型包括文本编码器和图像编码器。 3.根据权利要求1所述的一种基于跨模态算法的关键词推荐方法, 其特征在于, 所述使 用目标识别模型来对图片进行识别处 理具体包括: S111、 使用区域选取模型进行识别, 获取候选区域; S112、 使用图像编码器对候选区域进行向量 化处理。 图像编码器为基于跨模态的目标识别模型的图像编码器部分。 4.根据权利要求2或3所述的一种基于跨模态算法的关键词推荐方法, 其特征在于, 将 交并比大于交并比阈值的候选目标识别框记为目标识别模型物体框纳入匹配列表具体为: 通过下式计算用户反馈的目标物体框与候选目标识别框的交并比: 式中, a∈A,b∈B, A为用户反馈的目标物体框的集合, B为候选目标识别框的集合, IOUab 为用户反馈的目标物体框a与候选目标识别框b的面积的交并比, IOUthresh为交并比阈值, 当 IOUab>IOUthresh, 则将b记为目标识别模型物体框并纳入a的匹配列表。 5.根据权利要求4所述的一种基于跨模态算法的关键词推荐方法, 其特征在于, 所述通 过相似度匹配从大规模目标物体列 表中获得备选关键词具体为: 用基于跨模态的目标识别 模型中的文本编码器将大规模目标物体列表进行向量化, 获得大规模目标物体向量库, 然 后将匹配列 表中的每个向量在大规模目标物体向量库中进 行余弦相似度匹配, 相似度大于 相似度阈值的目标列为备选关键词。 6.根据权利要求5所述的一种基于跨模态算法的关键词推荐方法, 其特征在于, 所述对 备选关键词进行排序并推荐具体为: 在进行余弦相似度匹配时, 每个匹配到的关键词称为对这个关键词的一次命中, 计算 每个备选关键词命中总次数 K, 按照K进行降序排列, 从高到低进行推荐。 7.根据权利要求5所述的一种基于跨模态算法的关键词推荐方法, 其特征在于, 所述对 备选关键词进行排序并推荐具体为: 计算每个备选关键词命中时的平均相似度Meani, 按照平均相似度Meani进行降序排列, 从高到底进行推荐。权 利 要 求 书 1/1 页 2 CN 115359291 A 2一种基于跨模 态算法的关键词推荐方 法 技术领域 [0001]本发明涉及图片识别处理领域, 尤其是涉及跨模态算法以及开放词表无限类识别 模型, 主要应用于在开 放词表无限类识别模型的实际应用中, 解决标签难定义的问题。 背景技术 [0002]开放词表无限类识别模型是目前 图像识别领域最前沿, 最受关注的领域之一。 不 同于传统计算机视觉算法每个模型有固定的识别目标列 表, 开放词表无限类识别模型的识 别目标是允许用户使用自然语言定义的。 这得益于跨模态算法的突破性发展。 在获得更大 程度自由的同时, 一个问题也应运而生。 在一些情况下, 我们并不知道我们想要识别的目标 物体叫什么, 或者目标物体有 多种可能的名称, 我们不知道应该选择哪一个。 发明内容 [0003]本发明主要是解决现有技术所存在的标签难定义的技术问题, 提供一种基于跨模 态算法的关键词推荐方法。 [0004]本发明针对上述技术问题主要是通过下述技术方案得以解决的: 一种基于跨模态 算法的关键词推荐方法, 包括以下步骤: [0005]S1、 获取感兴趣的目标 并向量化: 首先由用户对示例图片进行标注 反馈, 在图中框 选出希望进行识别的目标物体, 得到用户反馈的目标物体框, 之后使用目标识别模型来对 图片进行识别处理, 得到候选目标识别框以及每个候选目标识别框对应的特征向量, 最后 将交并比大于交并比阈值的候选目标识别框记为目标识别模型物体框纳入匹配列表; [0006]S2、 通过相似度匹配从大规模目标物体列表中获得 备选关键词; [0007]S3、 对备选关键词进行排序并推荐。 [0008]作为优选, 所述使用目标识别模型来对图片进行识别处理使用基于跨模态的目标 识别模型进行目标识别和向量编码, 具体为: [0009]识别出图片中可能为识别目标的区域作为候选目标识别框, 同时每个候选目标识 别框都得到一个代 表其特征的向量; [0010]基于跨模态的目标识别模型包括文本编码器和图像编码器。 基于跨模态的目标识 别模型为Detic算法模型或A ttrDet模型。 [0011]作为优选, 所述使用目标识别模型来对图片进行识别处 理具体包括: [0012]S111、 使用区域选取模型进行识别, 获取候选区域; [0013]S112、 使用图像编码器对候选区域进行向量 化处理。 [0014]图像编码器为基于跨模态的目标识别模型的图像编码器部分。 这里跨模态目标识 别模型可以为CL IP模型, 区域选取模型 可以实用vi n模型或faster  RCNN模型。 [0015]作为优选, 将交并比大于交并比阈值的候选目标识别框记为目标识别模型物体框 纳入匹配列表具体为: [0016]通过下式计算用户反馈的目标物体框与候选目标识别框的交并比:说 明 书 1/4 页 3 CN 115359291 A 3

PDF文档 专利 一种基于跨模态算法的关键词推荐方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于跨模态算法的关键词推荐方法 第 1 页 专利 一种基于跨模态算法的关键词推荐方法 第 2 页 专利 一种基于跨模态算法的关键词推荐方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:31:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。