standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210536642.8 (22)申请日 2022.05.18 (71)申请人 上海数川数据科技有限公司 地址 202179 上海市崇明区竖新 镇响椿路 116号3幢310室 (72)发明人 丁岩 柴兆虎 林宇 赵宇迪  施侃  (74)专利代理 机构 宿迁市永 泰睿博知识产权代 理事务所(普通 合伙) 32264 专利代理师 刘慧 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/74(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称 一种图像注释模型的半监 督训练方法 (57)摘要 本发明涉及深度学习技术领域, 尤其为一种 图像注释模 型的半监督训练方法, 其方法包括如 下步骤, 使用监督方式训练深度学习模型时, 准 备大量的数据, 每个图片和文本一一对应, 通过 特定的学习函数进行计算, 再使用深度学习的反 向传播方法, 更新模型的参数。 本发明提出的半 监督训练方法, 通过在监督训练阶段, 利用标注 数据训练, 使模型得到一个较高的精度, 在半监 督训练阶段, 利用多模态图像 ‑文本模型和海量 图片数据, 提升了模型的泛化性能, 同时也节省 了高昂的标注成本, 解决了目前无标签的数据易 于获取, 而有标签的数据收集起来通常很困难, 标注也耗时和耗力, 且 标注数据的规模制约图像 注释模型能力进一 步提升的问题。 权利要求书1页 说明书5页 附图2页 CN 114842301 A 2022.08.02 CN 114842301 A 1.一种图像注释模型的半监 督训练方法, 其特 征在于: 其方法包括如下步骤: (1) 使用监督方式训练深度学习模型时, 准备大量的数据, 每个图片和文本一一对应, 通过特定的学习函数进 行计算, 再使用深度学习的反向传播方法, 更新模型的参数, 重复以 上过程, 不断更新模型的参数, 最后得到满意的模型; (2) 输入一张图片和三个文本送入多模态图像 ‑文本模型后, 可以得到图片和三个文本 的输出向量, 分别计算图片向量和三个文本向量的相似度, 并根据结果判断是否符合预期; (3) 经过步骤 (1) 和步骤 (2) 两步, 得到训练好的图像注释模型和多模态图像 ‑文本模 型, 用于在无 标注数据上训练模型; (4) 利用标注数据, 进行监督训练, 得到一个可用模型后, 加入海量的图片数据, 进行半 监督训练, 得到L oss后, 更新模型的参数; (5) 重复步骤 (4) , 即可 得到新的图像注释模型。 2.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤 (1) 中, 输入image1、 caption1、 image2、 caption2 ……imageN、 captionN, 将图片image(1~ N) 送入模型, 模型输出估计的文本 cap(1~N)。 3.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤 (1) 中, 通过 学习函数计算 Loss=func(capti on, cap)。 4.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤 (1) 中, 经 过若干轮迭代, 得到的模型, 在输入一张图片后, 可以输出一个文本 。 5.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤 (2) 中, 三个文本分别为 “a diagram”、“a dog”和“a cat”, 图片的输出向量为 fea1, 三个文 本的输出向量分别为fea2、 fea3和fea4。 6.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤 (2) 中, 计算得到的结果 分别为0.99279 37 、 0.00421068  、 0.00299 572, 其中“a diagram”的 预测概率最高, 输入的图片为 一张表格, 结果输出符合预期。 7.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤 (3) 中, 多模态图像 ‑文本模型可以得到图片、 文字的相似度, 其中将一句文本描述或一张图 片输入多模态图像 ‑文本模型, 会得到两个 向量, 若文本描述比较准确, 那么两个 向量的距 离会非常小, 反 之, 两个向量的距离会非常大。 8.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤 (4) 中, 将图片image(1~N) 送入已有的i mage caption模型, 得到预测的文本cap(1~N), 再 将cap(1~N) 送入多模态图像 ‑文本模型, 得到文本向量cap  fea(1~N)。 9.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步骤 (4) 中, 将图片ima ge(1~N) 送入多模态图像 ‑文本模型, 得到图片向量 img fea(1~N)。 10.根据权利要求1所述的一种图像注释模型的半监督训练方法, 其特征在于: 所述步 骤 (4) 中, 计算Loss时, 根据向量cap  fea(1‑N) 和img fea(1‑N) 可以计算Loss=func(cap   fea1, img  fea2)。权 利 要 求 书 1/1 页 2 CN 114842301 A 2一种图像注释模型的半监督训练方 法 技术领域 [0001]本发明涉及深度学习技 术领域, 具体为 一种图像注释模型的半监 督训练方法。 背景技术 [0002]人们在日常生活中, 可以对图像中的逻辑关系、 形状、 色彩、 场景等低层视觉特征 信息自动建立关系, 在此基础上感知图像的高层语义信息; 然而作为工具, 计算机仅仅能够 提取到图像的低层视觉特征, 没有办法像人类大脑那样, 生成高层语义信息。 这就是计算机 视觉中的“语义鸿沟 ”问题。 图像注释技术的本质就是将计算机提取 的图像视觉特征, 转化 为高层语义信息, 也就是解决 “语义鸿沟 ”问题, 使得计算机能够生成与人类大脑理解接近 的对图像的文字描述; 最终可以对图像进行分析、 检索、 分类等 等处理任务。 [0003]图像注释 (Image  Caption) 结合了自然语言处理 (NLP) 和计算机视觉 (CV) 两个领 域, 计算机不仅仅要识别图像中的物体以及物体的属 性, 还要识别出物体与物体之间的相 互关系, 并用正确的自然语言表达出来, 这也正是该技术的难点所在。 近年, 伴随深度学习 的发展和大型图像数据集的产生, Image  caption成为自然语言处理和计算机视觉领域的 热点。 [0004]Hinton等于2006年提出深度学习 (DL) 概念, 如今已经是机器学习领域中一个重要 的分支。 它对语音、 图像和声音等数据的处理远超当前其他相关的技术。 近年来, 深度学习 算法的发展以及计算机运算能力的提高, 使得图像描述、 图像分类、 目标检测、 舆情分析等 任务占据了人们的视野, 并成为自然语言处 理和计算机 视觉领域的热点。 [0005]图像注释使用了深度学习技术, 结合计算机视觉和自然语言处理, 建立某种映射 方式, 将处于视觉模态当中的数据映射到文本模态当中。 图像注释可以让模型根据输入的 图片, 生成与之相应的描述 性文字。 [0006]随着近年科技发展, 网络如今已经走入千家万户, 成为人们日常生活不可或缺的 一部分。 网络信息涵盖了方方面面的生活, 在 网络中, 人们使用多种多样的形式表达情感。 现今, 一个大型 的社交网站每一天都能够产生数亿级规模的图像数据, 但是这些数据并不 包含标注信息, 如何管理数量如此庞大的数据, 使 人们快速地检索图像信息, 以及如何整合 网络上庞大的图像资源并为人们所用, 发挥其巨大的价 值, 成为亟 待解决的问题。 发明内容 [0007]本发明的目的在于提供一种图像注释模型的半监督训练方法, 具备使模型得到一 个较高的精度, 且能够利用多模态图像 ‑文本模型和海量图片数据, 提升了模型的泛化性 能, 同时也节省了高昂标注成本的优点, 解决了目前无标签的数据易于获取, 而有 标签的数 据收集起来通常很困难, 标注也耗时和 耗力, 且标注数据的规模制约图像注释模型能力进 一步提升的问题。 [0008]为实现上述目的, 本发明提供如下技术方案: 一种图像注释模型的半监督训练方 法, 其方法包括如下步骤:说 明 书 1/5 页 3 CN 114842301 A 3

PDF文档 专利 一种图像注释模型的半监督训练方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种图像注释模型的半监督训练方法 第 1 页 专利 一种图像注释模型的半监督训练方法 第 2 页 专利 一种图像注释模型的半监督训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。