(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210925063.2
(22)申请日 2022.08.03
(71)申请人 北京乾图科技有限公司
地址 100085 北京市海淀区西三 旗昌临801
号10号楼1层10 -04
(72)发明人 孙茳 王树徽 赵毅晖 魏浩
(74)专利代理 机构 北京泛华伟业知识产权代理
有限公司 1 1280
专利代理师 王勇
(51)Int.Cl.
G06F 16/483(2019.01)
G06F 16/438(2019.01)
G06V 10/774(2022.01)
G06V 10/74(2022.01)
G06V 10/75(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种跨模态图文检索模型训练方法及系统
(57)摘要
本发明提供一种用于跨模态图文检索模型
的样本生 成方法, 用于对跨模态图文检索模型的
训练集进行处理, 其中, 所述训练集中包括多个
由图像样本和文本样本组成的图像 ‑文本样本
对, 相互匹配的图像样本和文本样本互为正样
本, 相互不匹配的图像样本和文本样本互为负样
本, 所述方法以训练集中的每个样本为锚点样
本, 从训练集中获取该锚点样 本的正样本和负样
本, 并将获取的正样本和负样 本与锚点样本组成
原始三元组, 对原始三元组执行如下步骤: S1、 根
据原始三元 组中正样本和负样 本的特征, 获得其
各自对应的激活特征和剩余特征; S2、 将正样本
的剩余特征和负样本的激活特征组合 以生成增
强负样本, 并用该增强负样本替换原始三元组中
的负样本以生成增强三元组。
权利要求书2页 说明书7页 附图1页
CN 115391578 A
2022.11.25
CN 115391578 A
1.一种用于跨模态图文检索模型的样本生成方法, 用于对跨模态图文检索模型的训练
集进行处理, 其中, 所述训练集中包括多个由图像样本和文本样本组成的图像 ‑文本样本
对, 相互匹配的图像样本和文本样本互为正样本, 相互不匹配的图像样本和文本样本互为
负样本, 其特征在于, 所述方法以训练集中的每个样本为锚点样本, 从训练集中获取该锚点
样本的正样本和负样本, 并将获取 的正样本和负样本与锚点样本组成原始三元组, 对原始
三元组执 行如下步骤:
S1、 根据原始三元组中正样本和负样本的特征, 获得其各自对应的激活特征和剩余特
征;
S2、 将正样本的剩余特征和负样本的激活特征组合以生成增强负样本, 并用该增强负
样本替换原 始三元组中的负 样本以生成增强三元组。
2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
S3、 以正样本的剩余特征生成挑战正样本、 以负样本的剩余特征生成挑战负样本, 并用
挑战正样本和挑战负 样本替换原 始三元组中的正样本和负 样本以生成挑战三元组。
3.根据权利要求1所述的方法, 其特征在于, 所述方法包括: 从训练集中获取锚点样本
的正样本和最难负 样本, 并将获取的正样本和最难负 样本与锚点样本组成原 始三元组。
4.根据权利要求3所述的方法, 其特征在于, 所述锚点样本的最难负样本是训练集中与
该锚点样本的余弦相似度最高的负 样本。
5.根据权利要求1所述的方法, 其特 征在于, 在步骤S1中:
当锚点样本为文本样本时, 采用预训练的图像特征提取网络分别提取其对应正样本和
负样本的文本特征, 并分别根据正样本和负样本的文本特征获得各自对应的激活特征和剩
余特征;
当锚点样本为图像样本时, 采用预训练的文本特征提取网络分别提取其对应正样本和
负样本的激活特 征和剩余特 征。
6.根据权利 要求5所述的方法, 其特征在于, 所述预训练的图像特征提取网络为Faster
R‑CNN。
7.根据权利要求5所述的方法, 其特 征在于, 所述预训练的文本特 征提取网络为BERT。
8.根据权利要求1所述的方法, 其特 征在于:
通过计算样本特征的梯度, 将梯度模长大于预设阈值的特征划分为激活特征, 将梯度
模长小于或等于预设阈值的特 征为剩余特 征。
9.一种跨模态图文检索模型训练方法, 其特 征在于, 所述方法包括:
T1、 获取原始数据集, 所述原始数据集中包括多个由图像样本和文本样本组成的图像 ‑
文本样本对;
T2、 将数据集按照预设批次的大小划分为多个批次, 依次以一个批次的图像 ‑文本样本
对为训练集对跨模态图文检索 模型进行多轮迭代训练直至收敛, 其中, 每轮训练时, 采用如
权利要求1 ‑8任一所述的方法对训练集中的样本进行处理, 以所有样本对应的增强三元组
和/或挑战三元组 组成的集 合训练跨模态图文检索模型。
10.根据权利要求9所述的方法, 其特征在于, 所述预设的批次大小为128,且每次从原
始数据集中随机采样128个图像 ‑文本样本对获得一个批次的图像 ‑文本样本对。
11.根据权利要求9所述的方法, 其特 征在于, 所述 三元组损失为:权 利 要 求 书 1/2 页
2
CN 115391578 A
2Ltotal=LSE+LSC
其中, LSE表示增强三元组对应的三元组损失, LSC表示挑战三元组对应的三元组损失;
其中, D表示原始数据 集, (x,t)表示原始数据 集中的图像 ‑文本样本对, tsyn表示图像样
本x对应的增强负 样本, xsyn表示文本样本t对应的增强负 样本。
其中, D表示原始数据集, (x,t)表示原始数据集中的图像 ‑文本样本对, t ′pos表示图像
样本x对应的挑战正样本, t ′neg表示图像样本x对应的挑战负样 本, x′pos表示文本样 本t对应
的挑战正样本, x ′neg表示文本样本t对应的挑战负 样本。
12.一种跨模态图文检索系统, 其特征在于, 所述系统包括采用如权利要求9 ‑11任一项
所述的方法进行训练获得的跨模态图文检索模型。
13.一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序, 所述计算机程序
可被处理器执行以实现权利要求1 ‑8、 9‑11任一所述方法的步骤。
14.一种电子设备, 其特 征在于, 包括:
一个或多个处 理器;
存储装置, 用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理
器执行时, 使得 所述电子设备实现如权利要求1 ‑8、 9‑11中任一项所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 115391578 A
3
专利 一种跨模态图文检索模型训练方法及系统
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:49上传分享