文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211204122.3 (22)申请日 2022.09.29 (71)申请人 清华大学 地址 100084 北京市海淀区双清路3 0号清 华大学清华园北京 100084-82信箱 (72)发明人 刘洋 陈驰 李鹏 孙茂松 (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 张博 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/774(2022.01) G06V 10/26(2022.01) G06F 40/289(2020.01) (54)发明名称 一种多模态预训练模型的训练方法和装置 (57)摘要 本发明提供一种多模态预训练模型的训练 方法和装置, 构建包含多模态图文信息处理网络 的多模态预训练模型; 构建弱对齐图像 ‑文本数 据集; 其中, 弱对齐图像 ‑文本数据集包含文本数 据集、 图像 ‑标签数据集和图像 ‑指代描述数据 集; 利用弱对齐图像 ‑文本数据集训练多模态预 训练模型。 本发 明多模态图文信息处理网络可以 直接处理多模态图文信息, 无需外部模型辅助提 取图像特征, 推理能力强。 同时, 采用弱对齐图 像‑文本数据集来训练多模态预训练模型, 减轻 对人工标注的图像 ‑文本对齐数据的依赖, 避免 使用对齐的大规模图像 ‑文本数据集来训练多模 态预训练模型 出现的数据开销大的问题。 权利要求书4页 说明书17页 附图2页 CN 115526259 A 2022.12.27 CN 115526259 A 1.一种多模态预训练模型的训练方法, 其特 征在于, 所述方法包括: 构建包含多模态图文信息处 理网络的多模态预训练模型; 构建弱对齐图像 ‑文本数据集; 其中, 所述弱对齐图像 ‑文本数据集包含文本数据集、 图 像‑标签数据集和图像 ‑指代描述数据集; 利用所述弱对齐图像 ‑文本数据集训练所述多模态预训练模型; 其中, 所述图像 ‑标签数据集中的样本, 由图像及其对应的标签词文本序列构成; 图像 对应的标签词文本序列由图像中所有实体的标签词拼接而成; 所述图像 ‑指代描述数据集中的样本, 由图像及其对应的指代描述构成。 2.根据权利要求1所述的多模态预训练模型的训练方法, 其特征在于, 所述图像 ‑标签 数据集的生成过程, 包括: 获取图像数据集; 对于所述图像数据集中的每一张图像, 通过目标检测器获取所述图像中存在的所有实 体; 基于所述图像中存在的所有实体, 生成所述图像对应的标签词文本序列; 利用所述图像数据集中的每一张图像及其对应的标签词文本序列, 生成所述图像 ‑标 签数据集。 3.根据权利要求2所述的多模态预训练模型的训练方法, 其特征在于, 所述图像 ‑指代 描述数据集的生成过程, 包括: 从所述所有实体中剔除重 叠实体, 并利用余下的实体构建第一实体集 合; 利用所述第一实体集合中任一实体以及与所述任一实体具有相同标签词的实体构建 第二实体集 合; 基于所述任一实体的标签词以及所述第 二实体集合中每一个实体的大小和位置, 生成 所述任一实体的指代描述; 将所述任一实体的指代描述作为所述图像对应的指代描述; 利用所述图像数据集中的每一张图像及其对应的指代描述, 生成所述图像 ‑指代描述 数据集。 4.根据权利要求1~3任一项所述的多模态预训练模型的训练方法, 其特征在于, 所述 利用所述弱对齐图像 ‑文本数据集训练所述多模态预训练模型, 包括: 对所述图像 ‑标签数据集中的每一条样本进行第一预处 理, 以得到第一数据集; 对所述图像 ‑指代描述数据集中的每一条样本进行第二预处 理, 以得到第二数据集; 对所述文本数据集中的每一条样本进行第三预处 理, 以得到第三数据集; 利用多模态图文信 息处理网络, 生成所述第 一数据集中每一条样本对应的多模态表征 向量、 所述第二数据集中每一条样本对应的多模态表征向量以及所述第三数据集中每一条 样本对应的多模态 表征向量; 利用所述第 一数据集中每一条样本对应的多模态表征向量、 所述第 二数据集中每一条 样本对应的多模态表征向量以及所述第三数据集中每一条样本对应的多模态表征向量, 对 所述多模态预训练模型进 行被遮盖标签词预测任务, 指代描述匹配任务和被遮盖分词预测 任务的联合训练; 其中, 所述第一预处 理至少包括:权 利 要 求 书 1/4 页 2 CN 115526259 A 2将样本中的图像切割为 N块得到对应的图像块序列; 随机遮盖样本中标签词文本序列的部分标签词得到带有遮盖标注的标签词文本序列; 所述第二预处 理至少包括: 将样本中的图像切割为 N块得到对应的图像块序列; 确定样本中的指代描述对应的分词序列; 所述第三预处 理至少包括: 确定样本中文本对应的文本分词序列; 随机遮盖所述文本分词序列中的部分 分词得到带有遮盖标注的文本分词序列。 5.根据权利要求4所述的多模态预训练模型的训练方法, 其特征在于, 所述多模态图文 信息处理网络包括: 文本嵌入层、 视觉编码 器和多模态编 码器; 所述利用多模态图文信息处 理网络, 生成所述第一数据集中每一条样本对应的多模态 表征向量, 包括: 利用所述文本嵌入层将所述第一数据集中每一条样本的带有遮盖标注的标签词文本 序列转换为文本词向量; 利用所述视觉编码器确定所述第一数据集中每一条样本的图像块序列对应的图像特 征向量; 利用所述多模态编码器融合由所述第一数据集中每一条样本的带有遮盖标注的标签 词文本序列转换 的文本词向量和所述第一数据集中每一条样本的图像块序列对应的图像 特征向量, 得到所述第一数据集中每一条样本对应的多模态 表征向量; 所述利用多模态图文信 息处理网络, 生成所述第 二数据集中每一条样本对应的多模态 表征向量, 包括: 利用所述文本嵌入层将所述第二数据集中每一条样本的指代描述分词序列转换为文 本词向量; 利用所述视觉编码器确定所述第二数据集中每一条样本的图像块序列对应的图像特 征向量; 利用所述多模态编码器融合由所述第二数据集中每一条样本的指代描述分词序列转 换的文本词向量和所述第二数据集中每一条样本的图像块序列对应的图像特征向量, 得到 所述第二数据集中每一条样本对应的多模态 表征向量; 所述利用多模态图文信 息处理网络, 生成所述第 三数据集中每一条样本对应的多模态 表征向量, 包括: 利用所述文本嵌入层将所述第三数据集中每一条样本的带有遮盖标注的文本分词序 列转换为文本词向量; 将由所述第三数据集中每一条样本的带有遮盖标注的文本分词序列转换的文本词向 量作为所述第三数据集中每一条样本对应的多模态 表征向量。 6.根据权利要求4所述的多模态预训练模型的训练方法, 其特征在于, 所述利用所述第 一数据集中每一条样本对应的多模态表征向量、 所述第二数据集中每一条样本对应的多模 态表征向量以及所述第三数据集中每一条样本对应的多模态表征向量, 对 所述多模态预训 练模型进行被遮盖标签词预测任务, 指代描述匹配任务和被遮盖分词预测任务的联合训 练, 包括: 利用所述第一数据集中每一条样本对应的多模态表征向量预测所述第一数据集中每权 利 要 求 书 2/4 页 3 CN 115526259 A 3
专利 一种多模态预训练模型的训练方法和装置
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-24 00:58:46
上传分享
举报
下载
原文档
(724.3 KB)
分享
友情链接
GB 7260.1-2008 不间断电源第1-1部分 一般规定和安全要求.pdf
GB-T 14846-2014 铝及铝合金挤压型材尺寸偏差.pdf
GB-T 34116-2017 智能电网用户自动需求响应 分散式空调系统终端技术条件.pdf
GB-T 33661-2017 农历的编算和颁行.pdf
GB-T 16457.2-2023 金刚石圆锯片基体 第2部分:用于烧结锯片.pdf
GB-T 32924-2016 信息安全技术 网络安全预警指南.pdf
GB-T 21063.1-2007 政务信息资源目录体系 第1部分 总体框架.pdf
GA-T 1561-2019 移动警务系统 总体技术要求.pdf
GB-T 22102-2008 防腐木材.pdf
GB-T 38472-2019 再生铸造铝合金原料.pdf
GB-T 43692-2024 量子通信术语和定义.pdf
TOGAF 业务架构.pdf
T-CAB 0072—2020 印刷智能工厂 纸盒折痕挺度与开合力控制及检测方法.pdf
GB-T 28921-2012 自然灾害分类与代码.pdf
T-SDBQ 02—2023 版权资产管理师职业标准.pdf
GM-T 0054-2018 信息系统密码应用基本要求.pdf
GB-T 20984-2007 信息安全技术 信息安全风险评估规范.pdf
GB-T 31467-2023 电动汽车用锂离子动力电池包和系统电性能试验方法.pdf
GB-T 39520-2020 弹簧残余应力的X射线衍射测试方法.pdf
安恒 黄承开 网络安全技术标准化和下一代网络安全架构技术介绍 2022.pdf
1
/
24
评价文档
赞助2元 点击下载(724.3 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。