专利 一种跨模态图文检索模型训练方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210925063.2 (22)申请日 2022.08.03 (71)申请人北京乾图科技有限公司地址 100085 北京市海淀区西三旗昌临801 号10号楼1层10 -04 (72)发明人孙茳　王树徽　赵毅晖　魏浩　 (74)专利代理机构北京泛华伟业知识产权代理有限公司 1 1280 专利代理师王勇 (51)Int.Cl. G06F 16/483(2019.01) G06F 16/438(2019.01) G06V 10/774(2022.01) G06V 10/74(2022.01) G06V 10/75(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种跨模态图文检索模型训练方法及系统 (57)摘要本发明提供一种用于跨模态图文检索模型的样本生成方法，用于对跨模态图文检索模型的训练集进行处理，其中，所述训练集中包括多个由图像样本和文本样本组成的图像 ‑文本样本对，相互匹配的图像样本和文本样本互为正样本，相互不匹配的图像样本和文本样本互为负样本，所述方法以训练集中的每个样本为锚点样本，从训练集中获取该锚点样本的正样本和负样本，并将获取的正样本和负样本与锚点样本组成原始三元组，对原始三元组执行如下步骤： S1、根据原始三元组中正样本和负样本的特征，获得其各自对应的激活特征和剩余特征； S2、将正样本的剩余特征和负样本的激活特征组合以生成增强负样本，并用该增强负样本替换原始三元组中的负样本以生成增强三元组。权利要求书2页说明书7页附图1页 CN 115391578 A 2022.11.25 CN 115391578 A 1.一种用于跨模态图文检索模型的样本生成方法，用于对跨模态图文检索模型的训练集进行处理，其中，所述训练集中包括多个由图像样本和文本样本组成的图像 ‑文本样本对，相互匹配的图像样本和文本样本互为正样本，相互不匹配的图像样本和文本样本互为负样本，其特征在于，所述方法以训练集中的每个样本为锚点样本，从训练集中获取该锚点样本的正样本和负样本，并将获取的正样本和负样本与锚点样本组成原始三元组，对原始三元组执行如下步骤： S1、根据原始三元组中正样本和负样本的特征，获得其各自对应的激活特征和剩余特征； S2、将正样本的剩余特征和负样本的激活特征组合以生成增强负样本，并用该增强负样本替换原始三元组中的负样本以生成增强三元组。 2.根据权利要求1所述的方法，其特征在于，所述方法还包括： S3、以正样本的剩余特征生成挑战正样本、以负样本的剩余特征生成挑战负样本，并用挑战正样本和挑战负样本替换原始三元组中的正样本和负样本以生成挑战三元组。 3.根据权利要求1所述的方法，其特征在于，所述方法包括：从训练集中获取锚点样本的正样本和最难负样本，并将获取的正样本和最难负样本与锚点样本组成原始三元组。 4.根据权利要求3所述的方法，其特征在于，所述锚点样本的最难负样本是训练集中与该锚点样本的余弦相似度最高的负样本。 5.根据权利要求1所述的方法，其特征在于，在步骤S1中: 当锚点样本为文本样本时，采用预训练的图像特征提取网络分别提取其对应正样本和负样本的文本特征，并分别根据正样本和负样本的文本特征获得各自对应的激活特征和剩余特征；当锚点样本为图像样本时，采用预训练的文本特征提取网络分别提取其对应正样本和负样本的激活特征和剩余特征。 6.根据权利要求5所述的方法，其特征在于，所述预训练的图像特征提取网络为Faster R‑CNN。 7.根据权利要求5所述的方法，其特征在于，所述预训练的文本特征提取网络为BERT。 8.根据权利要求1所述的方法，其特征在于：通过计算样本特征的梯度，将梯度模长大于预设阈值的特征划分为激活特征，将梯度模长小于或等于预设阈值的特征为剩余特征。 9.一种跨模态图文检索模型训练方法，其特征在于，所述方法包括： T1、获取原始数据集，所述原始数据集中包括多个由图像样本和文本样本组成的图像 ‑ 文本样本对； T2、将数据集按照预设批次的大小划分为多个批次，依次以一个批次的图像 ‑文本样本对为训练集对跨模态图文检索模型进行多轮迭代训练直至收敛，其中，每轮训练时，采用如权利要求1 ‑8任一所述的方法对训练集中的样本进行处理，以所有样本对应的增强三元组和/或挑战三元组组成的集合训练跨模态图文检索模型。 10.根据权利要求9所述的方法，其特征在于，所述预设的批次大小为128,且每次从原始数据集中随机采样128个图像 ‑文本样本对获得一个批次的图像 ‑文本样本对。 11.根据权利要求9所述的方法，其特征在于，所述三元组损失为：权　利　要　求　书 1/2 页 2 CN 115391578 A 2Ltotal＝LSE+LSC 其中， LSE表示增强三元组对应的三元组损失， LSC表示挑战三元组对应的三元组损失；其中， D表示原始数据集， (x,t)表示原始数据集中的图像 ‑文本样本对， tsyn表示图像样本x对应的增强负样本， xsyn表示文本样本t对应的增强负样本。其中， D表示原始数据集， (x,t)表示原始数据集中的图像 ‑文本样本对， t ′pos表示图像样本x对应的挑战正样本， t ′neg表示图像样本x对应的挑战负样本， x′pos表示文本样本t对应的挑战正样本， x ′neg表示文本样本t对应的挑战负样本。 12.一种跨模态图文检索系统，其特征在于，所述系统包括采用如权利要求9 ‑11任一项所述的方法进行训练获得的跨模态图文检索模型。 13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序可被处理器执行以实现权利要求1 ‑8、 9‑11任一所述方法的步骤。 14.一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1 ‑8、 9‑11中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 115391578 A 3

专利 一种跨模态图文检索模型训练方法及系统

专利一种跨模态图文检索模型训练方法及系统