专利 图文跨模态模型的数据增强方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210898897.9 (22)申请日 2022.07.28 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人唐小初　舒畅　陈又新　 (74)专利代理机构深圳市沃德知识产权代理事务所(普通合伙) 44347 专利代理师高杰　于志光 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/55(2019.01) G06F 16/583(2019.01) G06T 3/40(2006.01)G06T 5/00(2006.01) G06T 5/20(2006.01) G06V 10/34(2022.01) G06V 10/36(2022.01) G06V 10/74(2022.01) G06V 10/75(2022.01) G06V 10/764(2022.01) (54)发明名称图文跨模态模型的数据增强方法、装置、设备及存储介质 (57)摘要本发明涉及人工智能技术，揭露了一种图文跨模态模型的数据增强方法，包括：对图像数据集按业务场景进行分类，得到图像类别，基于图像类别，对图像数据集进行图像增强处理，得到第一图像增强数据集；对第一图像增强数据集进行马赛克数据增强处理，得到拼接图像，并将拼接图像加入第一图像增强数据集，得到图像增强数据集；对预设数量的文本数据进行回译及语句重复操作，得到预设数量的预处理文本数据，并将预处理文本数据加入文本数据集，得到文本增强数据集。此外，本发明还涉及区块链技术，图像类别可存储于区块链的节点。本发明还提出一种图文跨模态模型的数据增强装置、电子设备以及存储介质。本发明可以提高图文跨模态双塔模型的泛化能力。权利要求书2页说明书11页附图4页 CN 115203375 A 2022.10.18 CN 115203375 A 1.一种图文跨模态模型的数据增强方法，其特征在于，所述方法包括：获取图文跨模态模型的训练数据集，其中，所述训练数据集包含图像数据集及文本数据集；对所述训练数据集中的图像数据集按业务场景进行分类，得到图像类别，基于所述图像类别，对所述图像数据集进行图像增强处理，得到第一图像增强数据集；将所述第一图像增强数据集按照预设规则分为多个初步图像增强数据子集，分别从多个初步图像增强数据子集选取一组四张图像，对所述四张图像进行马赛克数据增强处理，得到拼接图像，并将所述每个初步图像增强数据子集的拼接图像加入到所述第一图像增强数据集中，得到图像增强数据集；从所述训练数据集中的文本数据集中选取预设数量的文本数据，对所述预设数量的文本数据进行回译及语句重复操作，得到预设数量的预处理文本数据，并将所述预设数量的预处理文本数据加入到所述文本数据集中，得到文本增强数据集。 2.如权利要求1所述的图文跨模态模型的数据增强方法，其特征在于，所述对所述预设数量的文本数据进行回译及语句重复操作，得到预设数量的预处理文本数据，包括：利用预设机器翻译模型，将所述预设数量的文本数据翻译为第一语言文本数据，再将所述第一语言的文本数据翻译为原始语言文本数据；随机选取所述预设数量的文本数据中的预设数量的词语，将所述预设数量的词语回填到所述预设数量的文本数据中，得到预设数量的第一预处理文本数据；从所述文本数据集中获取每组所述四张随机缩放图像对应的文本数据，拼接所述对应的文本数据，得到多个第二预处理文本数据；合并所述原始语言文本数据、所述预设数量的第一预处理文本数据及所述多个第二预处理文本数据，得到预设数量的预处理文本数据。 3.如权利要求1所述的图文跨模态模型的数据增强方法，其特征在于，所述基于所述图像类别，对所述图像数据集进行图像增强处理，得到第一图像增强数据集，包括：基于所述图像类别，从预设算法库中择选择图像增强处理算法，对所述训练数据集中的图像数据集在空间域上进行图像增强处理，得到灰度化图像集；对所述灰度化图像集在频率域上进行高斯滤波，得到平滑灰度化图像集；随机改变所述平滑灰度化图像集的亮度、对比度、饱和度及色调，得到初步增强数据集。 4.如权利要求3所述的图文跨模态模型的数据增强方法，其特征在于，所述基于所述图像类别，从预设算法库中择选择图像增强处理算法，对所述训练数据集中的图像数据集在空间域上进行图像增强处理，得到灰度化图像集，包括：根据所述图像类别选，从预设算法库中择选择灰度化算法对所述图像数据集进行灰度变换，得到初步灰度化图像集；根据所述图像类别选，从预设算法库中择选择锐化算法，对所述初步灰度化图像集进行锐化处理，得到灰度化图像集。 5.如权利要求3所述的图文跨模态模型的数据增强方法，其特征在于，所述对所述灰度化图像集在频率域上进行高斯滤波，得到平滑灰度化图像集，包括：根据预设规则，对所述灰度化图像集中灰度化图像的不同位置的像素赋予不同的权权　利　要　求　书 1/2 页 2 CN 115203375 A 2重，得到位置像素权重；利用预设卷积模板，基于所述位置像素权重，对所述灰度化图像集的邻域内像素进行加权平均，得到平滑灰度化图像集。 6.如权利要求1所述的图文跨模态模型的数据增强方法，其特征在于，所述对所述四张图像进行马赛克数据增强处理，得到拼接图像，包括：分别对所述四张图像进行随机缩放，得到四张随机缩放图像；在预设区域内随机选择拼接中心坐标，根据所述拼接中心坐标拼接，将所述四张随机缩放图像拼接到所述预设区域；当所述四张随机缩放图像超出所述预设区域时，对超出区域进行裁剪，得到拼接图像；当所述四张随机缩放图像没有填充满所述预设区域时，对未填满区域进行填充，得到拼接图形。 7.如权利要求1所述的图文跨模态模型的数据增强方法，其特征在于，所述对所述训练数据集中的图像数据集按业务场景进行分类，得到图像类别，包括：提取所述训练数据集中的图像数据集的特征向量集；将所述特征向量集与预设业务场景库中的业务场景图片集进行匹配，得到匹配相似度集；从所述匹配相似度集中选择满足相似度阈值的匹配相似度，将所述满足相似度阈值的匹配相似度的业务场景图标注的业务场景类别，作为对应图像数据的图像类别。 8.一种图文跨模态模型的数据增强装置，其特征在于，所述装置包括：训练集获取模块，用于获取图文跨模态模型的训练数据集，其中，所述训练数据集包含图像数据集及文本数据集；图像增强处理模块，用于对所述训练数据集中的图像数据集按业务场景进行分类，得到图像类别，基于所述图像类别，对所述图像数据集进行图像增强处理，得到第一图像增强数据集；将所述第一图像增强数据集按照预设规则分为多个初步图像增强数据子集，分别从所述多个初步图像增强数据子集选取一组四张图像，对所述四张图像进行马赛克数据增强处理，得到拼接图像，并将所述每个初步图像增强数据子集的拼接图像加入到所述第一图像增强数据集中，得到图像增强数据集；文本数据增强处理模块，用于从所述训练数据集中的文本数据集中选取预设数量的文本数据，对所述预设数量的文本数据进行回译及语句重复操作，得到预设数量的预处理文本数据，并将所述预设数量的预处理文本数据加入到所述文本数据集中，得到文本增强数据集。 9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求 1至7中任意一项所述的图文跨模态模型的数据增强方法。 10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的图文跨模态模型的数据增强方法。权　利　要　求　书 2/2 页 3 CN 115203375 A 3

专利 图文跨模态模型的数据增强方法、装置、设备及存储介质

专利图文跨模态模型的数据增强方法、装置、设备及存储介质