(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210536642.8
(22)申请日 2022.05.18
(71)申请人 上海数川数据科技有限公司
地址 202179 上海市崇明区竖新 镇响椿路
116号3幢310室
(72)发明人 丁岩 柴兆虎 林宇 赵宇迪
施侃
(74)专利代理 机构 宿迁市永 泰睿博知识产权代
理事务所(普通 合伙) 32264
专利代理师 刘慧
(51)Int.Cl.
G06V 10/774(2022.01)
G06V 10/74(2022.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
(54)发明名称
一种图像注释模型的半监 督训练方法
(57)摘要
本发明涉及深度学习技术领域, 尤其为一种
图像注释模 型的半监督训练方法, 其方法包括如
下步骤, 使用监督方式训练深度学习模型时, 准
备大量的数据, 每个图片和文本一一对应, 通过
特定的学习函数进行计算, 再使用深度学习的反
向传播方法, 更新模型的参数。 本发明提出的半
监督训练方法, 通过在监督训练阶段, 利用标注
数据训练, 使模型得到一个较高的精度, 在半监
督训练阶段, 利用多模态图像 ‑文本模型和海量
图片数据, 提升了模型的泛化性能, 同时也节省
了高昂的标注成本, 解决了目前无标签的数据易
于获取, 而有标签的数据收集起来通常很困难,
标注也耗时和耗力, 且 标注数据的规模制约图像
注释模型能力进一 步提升的问题。
权利要求书1页 说明书5页 附图2页
CN 114842301 A
2022.08.02
CN 114842301 A
1.一种图像注释模型的半监 督训练方法, 其特 征在于: 其方法包括如下步骤:
(1) 使用监督方式训练深度学习模型时, 准备大量的数据, 每个图片和文本一一对应,
通过特定的学习函数进 行计算, 再使用深度学习的反向传播方法, 更新模型的参数, 重复以
上过程, 不断更新模型的参数, 最后得到满意的模型;
(2) 输入一张图片和三个文本送入多模态图像 ‑文本模型后, 可以得到图片和三个文本
的输出向量, 分别计算图片向量和三个文本向量的相似度, 并根据结果判断是否符合预期;
(3) 经过步骤 (1) 和步骤 (2) 两步, 得到训练好的图像注释模型和多模态图像 ‑文本模
型, 用于在无 标注数据上训练模型;
(4) 利用标注数据, 进行监督训练, 得到一个可用模型后, 加入海量的图片数据, 进行半
监督训练, 得到L oss后, 更新模型的参数;
(5) 重复步骤 (4) , 即可 得到新的图像注释模型。
2.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤
(1) 中, 输入image1、 caption1、 image2、 caption2 ……imageN、 captionN, 将图片image(1~
N) 送入模型, 模型输出估计的文本 cap(1~N)。
3.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤
(1) 中, 通过 学习函数计算 Loss=func(capti on, cap)。
4.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤
(1) 中, 经 过若干轮迭代, 得到的模型, 在输入一张图片后, 可以输出一个文本 。
5.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤
(2) 中, 三个文本分别为 “a diagram”、“a dog”和“a cat”, 图片的输出向量为 fea1, 三个文
本的输出向量分别为fea2、 fea3和fea4。
6.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤
(2) 中, 计算得到的结果 分别为0.99279 37 、 0.00421068 、 0.00299 572, 其中“a diagram”的
预测概率最高, 输入的图片为 一张表格, 结果输出符合预期。
7.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤
(3) 中, 多模态图像 ‑文本模型可以得到图片、 文字的相似度, 其中将一句文本描述或一张图
片输入多模态图像 ‑文本模型, 会得到两个 向量, 若文本描述比较准确, 那么两个 向量的距
离会非常小, 反 之, 两个向量的距离会非常大。
8.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤
(4) 中, 将图片image(1~N) 送入已有的i mage caption模型, 得到预测的文本cap(1~N), 再
将cap(1~N) 送入多模态图像 ‑文本模型, 得到文本向量cap fea(1~N)。
9.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤
(4) 中, 将图片ima ge(1~N) 送入多模态图像 ‑文本模型, 得到图片向量 img fea(1~N)。
10.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步
骤 (4) 中, 计算Loss时, 根据向量cap fea(1‑N) 和img fea(1‑N) 可以计算Loss=func(cap
fea1, img fea2)。权 利 要 求 书 1/1 页
2
CN 114842301 A
2一种图像注释模型的半监督训练方 法
技术领域
[0001]本发明涉及深度学习技 术领域, 具体为 一种图像注释模型的半监 督训练方法。
背景技术
[0002]人们在日常生活中, 可以对图像中的逻辑关系、 形状、 色彩、 场景等低层视觉特征
信息自动建立关系, 在此基础上感知图像的高层语义信息; 然而作为工具, 计算机仅仅能够
提取到图像的低层视觉特征, 没有办法像人类大脑那样, 生成高层语义信息。 这就是计算机
视觉中的“语义鸿沟 ”问题。 图像注释技术的本质就是将计算机提取 的图像视觉特征, 转化
为高层语义信息, 也就是解决 “语义鸿沟 ”问题, 使得计算机能够生成与人类大脑理解接近
的对图像的文字描述; 最终可以对图像进行分析、 检索、 分类等 等处理任务。
[0003]图像注释 (Image Caption) 结合了自然语言处理 (NLP) 和计算机视觉 (CV) 两个领
域, 计算机不仅仅要识别图像中的物体以及物体的属 性, 还要识别出物体与物体之间的相
互关系, 并用正确的自然语言表达出来, 这也正是该技术的难点所在。 近年, 伴随深度学习
的发展和大型图像数据集的产生, Image caption成为自然语言处理和计算机视觉领域的
热点。
[0004]Hinton等于2006年提出深度学习 (DL) 概念, 如今已经是机器学习领域中一个重要
的分支。 它对语音、 图像和声音等数据的处理远超当前其他相关的技术。 近年来, 深度学习
算法的发展以及计算机运算能力的提高, 使得图像描述、 图像分类、 目标检测、 舆情分析等
任务占据了人们的视野, 并成为自然语言处 理和计算机 视觉领域的热点。
[0005]图像注释使用了深度学习技术, 结合计算机视觉和自然语言处理, 建立某种映射
方式, 将处于视觉模态当中的数据映射到文本模态当中。 图像注释可以让模型根据输入的
图片, 生成与之相应的描述 性文字。
[0006]随着近年科技发展, 网络如今已经走入千家万户, 成为人们日常生活不可或缺的
一部分。 网络信息涵盖了方方面面的生活, 在 网络中, 人们使用多种多样的形式表达情感。
现今, 一个大型 的社交网站每一天都能够产生数亿级规模的图像数据, 但是这些数据并不
包含标注信息, 如何管理数量如此庞大的数据, 使 人们快速地检索图像信息, 以及如何整合
网络上庞大的图像资源并为人们所用, 发挥其巨大的价 值, 成为亟 待解决的问题。
发明内容
[0007]本发明的目的在于提供一种图像注释模型的半监督训练方法, 具备使模型得到一
个较高的精度, 且能够利用多模态图像 ‑文本模型和海量图片数据, 提升了模型的泛化性
能, 同时也节省了高昂标注成本的优点, 解决了目前无标签的数据易于获取, 而有 标签的数
据收集起来通常很困难, 标注也耗时和 耗力, 且标注数据的规模制约图像注释模型能力进
一步提升的问题。
[0008]为实现上述目的, 本发明提供如下技术方案: 一种图像注释模型的半监督训练方
法, 其方法包括如下步骤:说 明 书 1/5 页
3
CN 114842301 A
3
专利 一种图像注释模型的半监督训练方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:00上传分享