standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210003468.0 (22)申请日 2022.01.04 (71)申请人 中国人民解 放军国防科技大 学 地址 210007 江苏省南京市秦淮区后标营 18号 (72)发明人 曹建军 曾志贤 翁年凤 袁震 江春 丁鲲 蒋国权 (74)专利代理 机构 江苏瑞途律师事务所 32346 代理人 计璐 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/242(2020.01) G06N 5/04(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于数据增强的视觉语义嵌入方法及 系统 (57)摘要 本发明公开了一种基于数据增强的视觉语 义嵌入方法及系统, 属于深度学习技术领域。 利 用第一网络模型对图像进行目标识别选取若干 图像区域; 利用第二网络模型提取图像区域的细 粒度特征, 通过微调网络映射得到图像在共同嵌 入空间的细粒度表示; 进行第一语义图推理并进 行统一池化操作; 利用第一提取模 型提取文本上 下文相关的词向量表示; 利用第二提取模型进行 微调映射至共同嵌入空间, 得到文本在共同嵌入 空间中的词向量表示; 进行第二语义图推理并进 行统一池化操作; 对所述第一池化结果和第二池 化结果进行语义对齐, 并且在模 型的训练中对数 据进行增强。 本发明能够很好的构建模态内语义 关联和在共同嵌入子空间中生成统一表征。 权利要求书2页 说明书10页 附图3页 CN 114298057 A 2022.04.08 CN 114298057 A 1.一种基于数据增强的视 觉语义嵌入方法, 其特 征在于, 包括: 接收图像数据和文本数据; 利用第一网络模型对图像进行目标识别, 并根据置信度选取若干 图像区域; 利用第二 网络模型提取每个所述图像区域的细粒度特征, 通过微调网络将所述图像细粒度特征映射 到共同嵌入空间, 得到图像在共同嵌入空间的细粒度表示; 根据所述细粒度表示进行第一语义图推理, 获得第一推理结果; 对第一推理结果进行统一池化操作, 得到第一池化结果; 利用第一提取模型提取文本上下文相关的词向量表示; 利用第 二提取模型对文本上下 文相关的词向量表示进行微调映射至共同嵌入空间, 得到文本在共同嵌入空间中的词向量 表示; 根据所述词向量表示进行第二语义图推理, 获得第二推理结果; 对第二推理结果进行统一池化操作, 得到第二池化结果; 对所述第一池化结果和第二池化结果进行语义对齐; 所述第二网络模型、 第一提取模型和第二提取模型均利用数据增强后的数据进行训 练。 2.根据权利要求1所述的方法, 其特征在于, 所述第一网络模型为在Visual Genome数 据集中预训练的目标识别网络Faster R‑CNN。 3.根据权利 要求1所述的方法, 其特征在于, 所述第二网络模型为在ImageNet数据集中 预训练的Resnet101。 4.根据权利要求1所述的方法, 其特征在于, 所述微调网络为多层感知机连接一层全连 接网络。 5.根据权利要求1所述的方法, 其特征在于, 所述第一提取模型为BERT ‑Base‑Uncased 模型; 所述第二 提取模型为Bi ‑GRU网络模型。 6.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述第一语义图推理的方法包 括: 构建第一全连接语义图, 以图片的细粒度特征向量表示作为节点, 节点间边的权重采 用节点间的相似度表示; 采用图卷积神经网络实现第一全连接语义图中节点之间的语义推理。 7.根据权利要求6所述的方法, 其特 征在于, 所述第一语义图推理的方法包括: 构建第二全连接语义图, 以词的向量表示作为节点, 节点间边的权重采用节点间的相 似度表示; 采用图卷积神经网络实现第二全连接语义图中节点之间的语义推理。 8.根据权利要求7所述的方法, 其特征在于, 所述第 一池化结果和第 二池化结果进行语 义对齐包括: 采用热启动的方式, 在训练的第一个epoc h采用一般跨模态三元组损失函数; 剩余的训练中采用难负 样本跨模态三元组损失函数。 9.根据权利要求8所述的方法, 其特征在于, 所述数据增强的方法包括图像数据增强和 文本数据增强; 所述图像数据增强包括: 每个图像区域都有一定的概率被一个固定的特征向量<mask>权 利 要 求 书 1/2 页 2 CN 114298057 A 2所替换, 并生成图像数据增强的细粒度特 征表示; 所述文本数据增强包括: 文本描述中的每 个单词都有一定的概 率替换为一个固定的非零特 征向量; 文本描述中的每 个单词都有一定的概 率被移除; 文本描述中的每 个单词都有一定的概 率被词典中的另一个单词替换。 10.一种基于数据增强的视觉语义嵌入系统, 根据权利要求1 ‑9任一项所述的基于数据 增强的视 觉语义嵌入方法进行视 觉语义嵌入, 其特 征在于, 包括: 数据接收单 元, 用于接收图像和文本数据; 图像特征获取单元, 利用第一网络模型对图像进行目标识别, 并根据置信度选取若干 图像区域; 利用第二网络模型提取每个所述图像区域的细粒度特征, 通过微调网络将所述 图像细粒度特 征映射到共同嵌入空间, 得到图像在共同嵌入空间的细粒度特 征表示; 第一图推理单 元, 根据所述细粒度表示进行第一语义图推理, 获得第一推理结果; 第一池化单 元, 对第一推理结果进行统一池化操作, 得到第一池化结果; 文本特征提取单元, 利用第一提取模型提取文本上下文相关的词向量表示; 利用第二 提取模型对文本上下文相关的词向量表示进 行微调映射至共同嵌入空间, 得到文本在 共同 嵌入空间中的词向量表示; 第二图推理单 元, 根据所述词向量表示进行第二语义图推理, 获得第二推理结果; 第二池化单 元, 对第二推理结果进行统一池化操作, 得到第二池化结果; 语义对齐单 元, 对所述第一池化结果和第二池化结果进行语义对齐。权 利 要 求 书 2/2 页 3 CN 114298057 A 3
专利 一种基于数据增强的视觉语义嵌入方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:34:03
上传分享
举报
下载
原文档
(1.0 MB)
分享
友情链接
DB31-T 1400-2023 药品生产全过程数字化追溯体系建设和运行规范 上海市.pdf
DAMA数据管理知识体系指南(原书第2版).pdf
T-CWA 211—2022 水性非固化橡胶沥青防水涂料.pdf
DB34-T 310016-2023 工业园区挥发性有机物光离子化传感器(PID)网格化监测技术规范 安徽省.pdf
T-CSAE 119—2019 绿色设计产品评价技术规范 纯电动乘用车.pdf
DB21-T 1799.3—2019 信息技术 信息服务管理规范 第3部分:IT系统运维 辽宁省.pdf
信通院 5G+云+AI:数字经济新时代的引擎.pdf
GB-T 20321.1-2006 离网型风能、太阳能发电系统用逆变器 第1部分:技术条件.pdf
GB-T 15919-2010 海洋学术语 海洋生物学.pdf
GB-T 40854-2021 镧铈金属.pdf
亿格云 陈吴栋 零信任SASE 助力数字化企业建立多云安全访问体系.pdf
T-CAAMTB 134—2023 质量分级及“领跑者”评价要求 电动汽车用驱动电机系统.pdf
DB52-T 1597-2021 计量检测元数据及交互规范 贵州省.pdf
DB37-T 4646.4—2023 公共数据 数据治理规范 第4部分:资源服务目录 山东省.pdf
DB3212-T 1126—2022 救助管理机构管理绩效评估规范 泰州市.pdf
华为AI盘古大模型研究框架.pdf
T-CSAE 137—2020 汽车紧固点防水密封性能试验及评价方法.pdf
GB-T 43690-2024 成像衍射光学元件衍射效率的测量方法.pdf
GB-T 20271-2006 信息安全技术 信息系统通用安全技术要求.pdf
GB-T 15843.5-2005 信息技术 安全技术 实体鉴别 第5部分 使用零知识技术的机制.pdf
1
/
16
评价文档
赞助2.5元 点击下载(1.0 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。