(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211034098.3
(22)申请日 2022.08.26
(71)申请人 北京达佳互联信息技 术有限公司
地址 100085 北京市海淀区上地西路6号1
幢1层101D1-7
(72)发明人 张恒
(74)专利代理 机构 北京清亦华知识产权代理事
务所(普通 合伙) 11201
专利代理师 孟洋
(51)Int.Cl.
G06V 10/74(2022.01)
G06V 10/82(2022.01)
G06V 10/774(2022.01)
G06V 20/70(2022.01)
G06V 20/40(2022.01)G06V 30/19(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于多模态的图像标注方法、 装置及电子设
备
(57)摘要
本公开提供了一种基于多模态的图像标注
方法、 装置及电子设备, 涉及图像处理技术领域。
具体步骤为: 获取待标注图像和图片类型, 根据
所述图片类型生成至少两个待定标注文本; 将所
述待标注 图像和各所述待定标注文本输入预先
训练的图像标注模型, 通过所述图像标注模型提
取所述待标注图像的图像特征向量, 以及所述待
定标注文本对应的文本特征向量; 获取所述图像
特征向量和各所述文本特征向量之间的相似度,
根据所述相似度从各所述待定标注文本中确定
目标标注文本; 根据所述目标标注文本, 标注所
述待标注图像。 本公开通过提取图像特征向量和
文本特征向量, 根据相似度确定目标标注文本,
实现了对图像的自动标注, 提高了图像标注的效
率和准确度。
权利要求书3页 说明书13页 附图7页
CN 115424044 A
2022.12.02
CN 115424044 A
1.一种基于多模态的图像标注方法, 其特 征在于, 包括:
获取待标注图像和图片类型, 根据所述图片类型生成至少两个待定标注文本;
将所述待标注图像和各所述待定标注文本输入预先训练 的图像标注模型, 通过所述图
像标注模型提取所述待标注图像的图像特征向量, 以及所述待定标注文本对应的文本特征
向量;
获取所述图像特征向量和各所述文本特征向量之间的相似度, 根据所述相似度从各所
述待定标注文本中确定目标 标注文本;
根据所述目标 标注文本, 标注所述待标注图像。
2.根据权利要求1所述的方法, 其特征在于, 所述图像标注模型包括图像编码器和文本
编码器, 所述通过所述图像标注模型提取所述待标注图像的图像特征向量和所述待定标注
文本对应的文本特 征向量, 包括:
将所述待标注图像输入所述图像编码器, 通过所述图像编码器提取所述图像特征向
量;
将所述待定标注文本输入所述文本编码器, 通过所述文本编码器提取所述文本特征向
量。
3.根据权利要求2所述的方法, 其特征在于, 所述获取所述图像特征向量和各所述文本
特征向量之间的相似度步骤具体包括以下任意 一项:
计算所述图像特 征向量和所述文本特 征向量之间的余弦相似度, 作为所述相似度;
计算所述图像特 征向量和所述文本特 征向量之间的曼哈顿距离, 作为所述相似度;
计算所述图像特 征向量和所述文本特 征向量之间的欧氏距离, 作为所述相似度。
4.根据权利要求3所述的方法, 其特征在于, 所述根据所述相似度从各所述待定标注文
本中确定目标 标注文本的步骤具体包括:
如果所述相似度 大于预设的相似度阈值, 则确定所述相似度对应的待定标注文本为所
述目标标注文本 。
5.根据权利要求1所述的方法, 其特征在于, 所述根据所述目标标注文本, 标注所述待
标注图像的步骤具体包括:
将所述目标 标注文本确定为所述待标注图像的标注文本 。
6.一种图像标注模型的训练方法, 其特 征在于, 包括:
对图像训练数据和文本训练数据进行配对, 得到训练数据对, 根据所述训练数据对生
成训练数据集;
选取至少两个训练数据对组成数据批, 将所述数据批输入图像标注模型, 其中, 所述数
据批中包括 一个正例训练数据对和至少一个负例训练数据对;
根据所述图像标注模型提取所述数据批中正例训练数据对的图像训练数据和文本训
练数据的特征, 以生成第一图像特征向量和第一文本特征向量, 并根据所述图像标注模型
提取所述数据批中负例训练数据对的图像训练数据和文本训练数据的特征, 以生成第二图
像特征向量和第二文本特 征向量;
根据所述第 一图像特征向量和第 二图像特征向量组成图像特征队列, 并根据 所述第一
文本特征向量和第二文本特 征向量组成文本特 征队列;
计算所述第 一图像特征向量和文本特征队列中各个文本特征向量之间的第 一相似度,权 利 要 求 书 1/3 页
2
CN 115424044 A
2计算第一文本特 征向量和图像特 征队列中各个图像特 征向量之间的第二相似度;
根据所述第一相似度和第二相似度计算损 失函数值, 以所述损 失函数收敛为目标, 训
练所述图像标注模型, 得到训练完成的图像标注模型。
7.根据权利要求6所述的方法, 其特征在于, 所述图像训练数据和文本训练数据的获取
步骤包括:
获取原始视频数据中的视频帧, 并对所述视频帧进行 预处理, 以生成第一图像数据;
获取所述原始视频数据中的文本, 并对所述文本进行预处理, 以生成所述第一图像数
据对应的第一文本数据, 将所述第一图像数据和对应的第一文本数据组成原 始数据对;
对所述第一图像数据和所述第 一文本数据进行数据增强, 以生成所述图像训练数据和
所述文本训练数据。
8.根据权利要求7所述的方法, 其特征在于, 所述对所述第 一图像数据和所述第 一文本
数据进行 数据增强以生成所述图像训练数据和所述文本训练数据步骤 包括:
对所述第一图像数据进行以下至少一项变换以生成所述图像训练数据: 旋转变换, 翻
转变换, 缩放变换, 平 移变换, 尺度变换, 噪声扰动, 颜色变换或遮挡;
对所述第一文本数据进行以下至少一项变换以生成所述文本训练数据: 近义词替换,
近义字随机 置换, 中文等 价字替换, 翻译互转或倒装句式变换。
9.根据权利要求6所述的方法, 其特征在于, 所述根据所述第 一相似度和第 二相似度计
算损失函数值, 以所述损失函数收敛为目标训练所述图像标注模型, 包括:
计算所述正例训练数据对的图像训练数据和所述正例训练数据对的文本训练数据之
间的参考相似度;
以所述参考相似度大于或等于所有的第一相似度和第二相似度为目标设置损失函数。
10.一种基于多模态的图像标注装置, 其特 征在于, 包括:
待定标注文本获取模块, 用于获取待标注图像和图片类型, 根据所述图片类型生成至
少两个待定标注文本;
特征提取模块, 用于将所述待标注图像和各所述待定标注文本输入预先训练 的图像标
注模型, 通过所述图像标注模型提取所述待标注图像的图像特征向量, 以及所述待定标注
文本对应的文本特 征向量;
目标标注文本确定模块, 用于获取所述图像特征向量和各所述文本特征向量之间的相
似度, 根据所述相似度从各 所述待定标注文本中确定目标 标注文本;
标注模块, 用于根据所述目标 标注文本, 标注所述待标注图像。
11.一种图像标注模型的训装置, 其特 征在于, 包括:
数据采集模块, 用于对图像训练数据和文本训练数据进行配对, 得到训练数据对, 根据
所述训练数据对生成训练数据集;
数据输入模块, 用于选取至少两个训练数据对组成数据批, 将所述数据批输入图像标
注模型, 其中, 所述数据批中包括 一个正例训练数据对和至少一个负例训练数据对;
特征提取模块, 用于根据所述图像标注模型提取所述数据批 中正例训练数据对的图像
训练数据和文本训练数据的特征, 以生成第一图像特征向量和第一文本特征向量, 并根据
所述图像标注模型提取所述数据批中负例训练数据对的图像训练数据和文本训练数据的
特征, 以生成第二图像特 征向量和第二文本特 征向量;权 利 要 求 书 2/3 页
3
CN 115424044 A
3
专利 基于多模态的图像标注方法、装置及电子设备
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:29上传分享