standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210003468.0 (22)申请日 2022.01.04 (71)申请人 中国人民解 放军国防科技大 学 地址 210007 江苏省南京市秦淮区后标营 18号 (72)发明人 曹建军 曾志贤 翁年凤 袁震  江春 丁鲲 蒋国权  (74)专利代理 机构 江苏瑞途律师事务所 32346 代理人 计璐 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/242(2020.01) G06N 5/04(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于数据增强的视觉语义嵌入方法及 系统 (57)摘要 本发明公开了一种基于数据增强的视觉语 义嵌入方法及系统, 属于深度学习技术领域。 利 用第一网络模型对图像进行目标识别选取若干 图像区域; 利用第二网络模型提取图像区域的细 粒度特征, 通过微调网络映射得到图像在共同嵌 入空间的细粒度表示; 进行第一语义图推理并进 行统一池化操作; 利用第一提取模 型提取文本上 下文相关的词向量表示; 利用第二提取模型进行 微调映射至共同嵌入空间, 得到文本在共同嵌入 空间中的词向量表示; 进行第二语义图推理并进 行统一池化操作; 对所述第一池化结果和第二池 化结果进行语义对齐, 并且在模 型的训练中对数 据进行增强。 本发明能够很好的构建模态内语义 关联和在共同嵌入子空间中生成统一表征。 权利要求书2页 说明书10页 附图3页 CN 114298057 A 2022.04.08 CN 114298057 A 1.一种基于数据增强的视 觉语义嵌入方法, 其特 征在于, 包括: 接收图像数据和文本数据; 利用第一网络模型对图像进行目标识别, 并根据置信度选取若干 图像区域; 利用第二 网络模型提取每个所述图像区域的细粒度特征, 通过微调网络将所述图像细粒度特征映射 到共同嵌入空间, 得到图像在共同嵌入空间的细粒度表示; 根据所述细粒度表示进行第一语义图推理, 获得第一推理结果; 对第一推理结果进行统一池化操作, 得到第一池化结果; 利用第一提取模型提取文本上下文相关的词向量表示; 利用第 二提取模型对文本上下 文相关的词向量表示进行微调映射至共同嵌入空间, 得到文本在共同嵌入空间中的词向量 表示; 根据所述词向量表示进行第二语义图推理, 获得第二推理结果; 对第二推理结果进行统一池化操作, 得到第二池化结果; 对所述第一池化结果和第二池化结果进行语义对齐; 所述第二网络模型、 第一提取模型和第二提取模型均利用数据增强后的数据进行训 练。 2.根据权利要求1所述的方法, 其特征在于, 所述第一网络模型为在Visual  Genome数 据集中预训练的目标识别网络Faster  R‑CNN。 3.根据权利 要求1所述的方法, 其特征在于, 所述第二网络模型为在ImageNet数据集中 预训练的Resnet101。 4.根据权利要求1所述的方法, 其特征在于, 所述微调网络为多层感知机连接一层全连 接网络。 5.根据权利要求1所述的方法, 其特征在于, 所述第一提取模型为BERT ‑Base‑Uncased 模型; 所述第二 提取模型为Bi ‑GRU网络模型。 6.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述第一语义图推理的方法包 括: 构建第一全连接语义图, 以图片的细粒度特征向量表示作为节点, 节点间边的权重采 用节点间的相似度表示; 采用图卷积神经网络实现第一全连接语义图中节点之间的语义推理。 7.根据权利要求6所述的方法, 其特 征在于, 所述第一语义图推理的方法包括: 构建第二全连接语义图, 以词的向量表示作为节点, 节点间边的权重采用节点间的相 似度表示; 采用图卷积神经网络实现第二全连接语义图中节点之间的语义推理。 8.根据权利要求7所述的方法, 其特征在于, 所述第 一池化结果和第 二池化结果进行语 义对齐包括: 采用热启动的方式, 在训练的第一个epoc h采用一般跨模态三元组损失函数; 剩余的训练中采用难负 样本跨模态三元组损失函数。 9.根据权利要求8所述的方法, 其特征在于, 所述数据增强的方法包括图像数据增强和 文本数据增强; 所述图像数据增强包括: 每个图像区域都有一定的概率被一个固定的特征向量<mask>权 利 要 求 书 1/2 页 2 CN 114298057 A 2所替换, 并生成图像数据增强的细粒度特 征表示; 所述文本数据增强包括: 文本描述中的每 个单词都有一定的概 率替换为一个固定的非零特 征向量; 文本描述中的每 个单词都有一定的概 率被移除; 文本描述中的每 个单词都有一定的概 率被词典中的另一个单词替换。 10.一种基于数据增强的视觉语义嵌入系统, 根据权利要求1 ‑9任一项所述的基于数据 增强的视 觉语义嵌入方法进行视 觉语义嵌入, 其特 征在于, 包括: 数据接收单 元, 用于接收图像和文本数据; 图像特征获取单元, 利用第一网络模型对图像进行目标识别, 并根据置信度选取若干 图像区域; 利用第二网络模型提取每个所述图像区域的细粒度特征, 通过微调网络将所述 图像细粒度特 征映射到共同嵌入空间, 得到图像在共同嵌入空间的细粒度特 征表示; 第一图推理单 元, 根据所述细粒度表示进行第一语义图推理, 获得第一推理结果; 第一池化单 元, 对第一推理结果进行统一池化操作, 得到第一池化结果; 文本特征提取单元, 利用第一提取模型提取文本上下文相关的词向量表示; 利用第二 提取模型对文本上下文相关的词向量表示进 行微调映射至共同嵌入空间, 得到文本在 共同 嵌入空间中的词向量表示; 第二图推理单 元, 根据所述词向量表示进行第二语义图推理, 获得第二推理结果; 第二池化单 元, 对第二推理结果进行统一池化操作, 得到第二池化结果; 语义对齐单 元, 对所述第一池化结果和第二池化结果进行语义对齐。权 利 要 求 书 2/2 页 3 CN 114298057 A 3

PDF文档 专利 一种基于数据增强的视觉语义嵌入方法及系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于数据增强的视觉语义嵌入方法及系统 第 1 页 专利 一种基于数据增强的视觉语义嵌入方法及系统 第 2 页 专利 一种基于数据增强的视觉语义嵌入方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。