(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210898897.9
(22)申请日 2022.07.28
(71)申请人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 唐小初 舒畅 陈又新
(74)专利代理 机构 深圳市沃德知识产权代理事
务所(普通 合伙) 44347
专利代理师 高杰 于志光
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/55(2019.01)
G06F 16/583(2019.01)
G06T 3/40(2006.01)G06T 5/00(2006.01)
G06T 5/20(2006.01)
G06V 10/34(2022.01)
G06V 10/36(2022.01)
G06V 10/74(2022.01)
G06V 10/75(2022.01)
G06V 10/764(2022.01)
(54)发明名称
图文跨模态模型的数据增强方法、 装置、 设
备及存储介质
(57)摘要
本发明涉及人工智能技术, 揭露了一种图文
跨模态模型的数据增强方法, 包括: 对 图像数据
集按业务场景进行分类, 得到图像类别, 基于图
像类别, 对图像数据集进行图像增强处理, 得到
第一图像增强数据集; 对第一图像增强数据集进
行马赛克数据增强处理, 得到拼接图像, 并将拼
接图像加入第一图像增强数据集, 得到图像增强
数据集; 对 预设数量的文本数据进行回译及语句
重复操作, 得到预设数量的预处理文本数据, 并
将预处理文本数据加入文本数据集, 得到文本增
强数据集。 此外, 本发明还涉及区块链技术, 图像
类别可存储于区块链的节点。 本发 明还提出一种
图文跨模态模 型的数据增强装置、 电子设备以及
存储介质。 本发 明可以提高图文跨模态双塔模型
的泛化能力。
权利要求书2页 说明书11页 附图4页
CN 115203375 A
2022.10.18
CN 115203375 A
1.一种图文跨模态模型的数据增强方法, 其特 征在于, 所述方法包括:
获取图文跨模态模型的训练数据集, 其中, 所述训练数据集包含图像数据集及文本数
据集;
对所述训练数据集中的图像数据集按业务场景进行分类, 得到 图像类别, 基于所述图
像类别, 对所述图像数据集进行图像增强处 理, 得到第一图像增强数据集;
将所述第一图像增强数据集按照预设规则分为多个初步图像增强数据子集, 分别从多
个初步图像增强数据子集选取一组四张图像, 对所述四张图像进行马赛克数据增强处理,
得到拼接图像, 并将所述每个初步图像增强数据子集的拼接图像加入到所述第一图像增强
数据集中, 得到图像增强数据集;
从所述训练数据集中的文本数据集中选取预设数量的文本数据, 对所述预设数量的文
本数据进行回译及语句 重复操作, 得到预设数量的预处理文本数据, 并将所述预设数量的
预处理文本数据加入到所述文本数据集中, 得到文本增强数据集。
2.如权利要求1所述的图文跨模态模型的数据增强方法, 其特征在于, 所述对所述预设
数量的文本数据进行回译及语句重复操作, 得到预设数量的预处 理文本数据, 包括:
利用预设机器翻译模型, 将所述预设数量的文本数据翻译为第一语言文本数据, 再将
所述第一语言的文本数据翻译为原 始语言文本数据;
随机选取所述预设数量的文本数据中的预设数量的词语, 将所述预设数量的词语回填
到所述预设数量的文本数据中, 得到预设数量的第一预处 理文本数据;
从所述文本数据集中获取每组所述 四张随机缩放图像对应的文本数据, 拼接所述对应
的文本数据, 得到多个第二预处 理文本数据;
合并所述原始语言文本数据、 所述预设数量的第 一预处理文本数据及所述多个第 二预
处理文本数据, 得到预设数量的预处 理文本数据。
3.如权利要求1所述的图文跨模态模型的数据增强方法, 其特征在于, 所述基于所述图
像类别, 对所述图像数据集进行图像增强处 理, 得到第一图像增强数据集, 包括:
基于所述图像类别, 从预设算法库中择选择图像增强处理算法, 对所述训练数据集中
的图像数据集在空间域上进行图像增强处 理, 得到灰度化图像集;
对所述灰度化图像集在频率 域上进行高斯滤波, 得到平 滑灰度化图像集;
随机改变所述平滑灰度化图像集的亮度、 对比度、 饱和度及色调, 得到初步增强数据
集。
4.如权利要求3所述的图文跨模态模型的数据增强方法, 其特征在于, 所述基于所述图
像类别, 从预设算法库中择选择图像增强处理算法, 对所述训练数据集中的图像数据集在
空间域上进行图像增强处 理, 得到灰度化图像集, 包括:
根据所述图像类别选, 从预设算法库中择选择灰度化算法对所述图像数据集进行灰度
变换, 得到初步灰度化图像集;
根据所述图像类别选, 从预设算法库中择选择锐化算法, 对所述初步灰度化图像集进
行锐化处 理, 得到灰度化图像集。
5.如权利要求3所述的图文跨模态模型的数据增强方法, 其特征在于, 所述对所述灰度
化图像集在频率 域上进行高斯滤波, 得到平 滑灰度化图像集, 包括:
根据预设规则, 对所述灰度化图像集中灰度化图像的不同位置的像素赋予不同的权权 利 要 求 书 1/2 页
2
CN 115203375 A
2重, 得到位置像素权 重;
利用预设卷积模板, 基于所述位置像素权重, 对所述灰度化图像集的邻域内像素进行
加权平均, 得到平 滑灰度化图像集。
6.如权利要求1所述的图文跨模态模型的数据增强方法, 其特征在于, 所述对所述 四张
图像进行马赛克 数据增强处 理, 得到拼接图像, 包括:
分别对所述四张图像进行随机缩放, 得到四张随机缩放图像;
在预设区域内随机选择拼接中心坐标, 根据所述拼接中心坐标拼接, 将所述四张随机
缩放图像拼接 到所述预设区域;
当所述四张随机缩放图像超出 所述预设区域时, 对 超出区域进行裁 剪, 得到拼接图像;
当所述四张随机缩放图像没有填充满所述预设区域时, 对未填满区域进行填充, 得到
拼接图形。
7.如权利要求1所述的图文跨模态模型的数据增强方法, 其特征在于, 所述对所述训练
数据集中的图像数据集按业 务场景进行分类, 得到图像 类别, 包括:
提取所述训练数据集中的图像数据集的特 征向量集;
将所述特征向量集与 预设业务场景库中的业务场景图片集进行匹配, 得到匹配相似度
集;
从所述匹配相似度集中选择满足相似度阈值的匹配相似度, 将所述满足相似度阈值的
匹配相似度的业 务场景图标注的业 务场景类别, 作为对应图像数据的图像 类别。
8.一种图文跨模态模型的数据增强装置, 其特 征在于, 所述装置包括:
训练集获取模块, 用于获取图文跨模态模型的训练数据集, 其中, 所述训练数据集包含
图像数据集及文本数据集;
图像增强处理模块, 用于对所述训练数据集中的图像数据集按业务场景进行分类, 得
到图像类别, 基于所述图像类别, 对所述图像数据集进 行图像增强处理, 得到第一图像增强
数据集; 将所述第一图像增强数据集按照预设规则 分为多个初步图像增强数据子集, 分别
从所述多个初步图像增强数据子集选取一组 四张图像, 对所述四张图像进 行马赛克数据增
强处理, 得到拼接图像, 并将所述每个初步图像增强数据子集的拼接图像加入到所述第一
图像增强数据集中, 得到图像增强数据集;
文本数据增强处理模块, 用于从所述训练数据集中的文本数据集中选取预设数量的文
本数据, 对所述预设数量的文本数据进行回译及语句 重复操作, 得到预设数量的预处理文
本数据, 并将所述预设数量的预处理文本数据加入到所述文本数据集中, 得到文本增强数
据集。
9.一种电子设备, 其特 征在于, 所述电子设备包括:
至少一个处 理器; 以及,
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所
述至少一个处理器执行, 以使 所述至少一个处理器能够执行如权利要求 1至7中任意一项 所
述的图文跨模态模型的数据增强方法。
10.一种计算机可读存储介质, 存储有计算机程序, 其特征在于, 所述计算机程序被处
理器执行时实现如权利要求1至7中任意 一项所述的图文跨模态模型的数据增强方法。权 利 要 求 书 2/2 页
3
CN 115203375 A
3
专利 图文跨模态模型的数据增强方法、装置、设备及存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:52上传分享