专利 一种基于跨模态互注意力机制的图文匹配方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210105762.2 (22)申请日 2022.01.28 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号申请人北京第二外国语学院 (72)发明人赵海英　魏莱　 (74)专利代理机构北京世誉鑫诚专利代理有限公司 11368 专利代理师仲伯煊 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/74(2022.01) G06V 20/70(2022.01) G06V 10/82(2022.01) G06F 40/284(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于跨模态互注意力机制的图文匹配方法 (57)摘要本发明公开了一种基于跨模态互注意力机制的图文匹配方法，该方法包括以下步骤：采用目标检测网络对图像语义特征进行提取，并采用中文预训练模型对文本语义特征进行提取；通过图文相似度计算模块对局部图像区域与文本中单词之间的cos相似度进行计算，得到注意力权重，同时对受图像注意力监督的文本向量进行计算；对受图像注意力监督的文本向量与局部图像的cos相似度进行计算，并通过求和与平均池化处理得到完整文本与完整图像之间的相似度；计算图文相似度的预测结果。本发明能够推断整个图像和完整句子之间的相似性，输出图像和句子间的相似度数值，实现图像局部到单词对齐的细粒度图文匹配。权利要求书3页说明书6页附图1页 CN 114492646 A 2022.05.13 CN 114492646 A 1.一种基于跨模态互注意力机制的图文匹配方法，其特征在于，该方法包括以下步骤： S1、采用目标检测网络对图像语义特征进行提取，并采用中文预训练模型对文本语义特征进行提取； S2、构建图文相似度计算模块，并通过图文相似度计算模块对局部图像区域与文本中单词之间的cos相似度进行计算，得到注意力权重，同时对受图像注意力监督的文本向量进行计算； S3、对受图像注意力监督的文本向量与局部图像的cos相似度进行计算，并通过求和与平均池化处理得到完整文本与完整图像之间的相似度； S4、训练得到图文匹配预测模型，并将提取到的图文数据的特征编码输入图文匹配预测模型，得到图文相似度的预测结果。 2.根据权利要求1所述的一种基于跨模态互注意力机制的图文匹配方法，其特征在于，所述S1中采用目标检测网络对图像语义特征进行提取还包括以下步骤：采用目标检测网络对图像的兴趣区域特征Vr和POS特征Vp进行提取；将Vr与Vp进行拼接，得到图像语义特征Vs。 3.根据权利要求1所述的一种基于跨模态互注意力机制的图文匹配方法，其特征在于，所述S1中采用中文预训练模型对文本语义特征进行提取还包括以下步骤：采用中文分词技术jieba对中文文本进行分词得到单词列表；采用Word Embedding获取单词的词向量Tw，且将词向量Tw输入双向GRU网络，并提取出文本特征Tl；采用Bert中文预训练网络对文本特征Tl进行语义特征Ts的提取，并将该语义特征Ts作为最终的文本语义特征。 4.根据权利要求3所述的一种基于跨模态互注意力机制的图文匹配方法，其特征在于，所述S2中构建图文相似度计算模块时，将图像语义特征Vs及文本语义特征Ts输入图文相似度计算模块得到图像语义特征Vs与文本语义特征Ts之间的相似度。 5.根据权利要求1所述的一种基于跨模态互注意力机制的图文匹配方法，其特征在于，所述S2中对受图像注意力监督的文本向量进行计算还包括以下步骤：将图像按照兴趣区域数量 k分为k个局部区域，并设定其中一个局部区域为Vi；将文本按照单词数量 n分为n个单词，并设定其中一个单词为 Wj；对Vi及Wj进行cos相似度的计算，计算公式如下：并归一化处理得到其中， [x]+≡max(x,0)；通过softmax函数计算权重aij，公式如下：权　利　要　求　书 1/3 页 2 CN 114492646 A 2并通过对单词加权求和得到注意力下的文本向量公式如下：各式中， Sij是第i个局部图像和第j个单词间的相似度， vi是第i个局部图像特征向量， wj 是第j个单词文本特征向量， k是图像按兴趣区数量k被分割为k个区域， n是句子文本总共切分为n个单词， Aij是第j个单词根据其与图像相关度计算得到的权重， wj是第j个单词，一共n 个。 6.根据权利要求5所述的一种基于跨模态互注意力机制的图文匹配方法，其特征在于，所述S3中通过求和与平均池化处理得到完整文本与完整图像之间的相似度还包括以下步骤：通过对注意力下的文本向量及图像局部区域的cos相似度进行计算，且对cos相似度进行求和并经过平均池化处理，得到完整文本和完整图像的相似度SAVG(I,T)。 7.根据权利要求6所述的一种基于跨模态互注意力机制的图文匹配方法，其特征在于，所述完整文本和完整图像的相似度SAVG(I,T)的计算公式如下：各式中， Vi是第i个局部图像特征， ai是受图像注意力监督加权后的文本特征， k是总共k 个图像局部块。 8.根据权利要求1所述的一种基于跨模态互注意力机制的图文匹配方法，其特征在于，所述S4中训练得到图文匹配预测模型，并将提取到的图文数据的特征编码输入图文匹配预测模型，得到图文相似度的预测结果还包括以下步骤：采用随机配对法构建负例并对数据进行训练，采用Triplet Loss损失函数作为图文匹配任务的训练目标，且训练结束后得到图文匹配预测模型；采用Faster ‑RCNN和双向GRU分别对图文数据的特征编码进行提取，并将提取到的图文数据的特征编码输入图文匹配预测模型，得到图文相似度的预测结果。 9.根据权利要求8所述的一种基于跨模态互注意力机制的图文匹配方法，其特征在于，所述通过采用随机配对法构建负例对数据进行训练时，负例构建策略还包括以下步骤：对40％的图像数据选择从文本集合中随机抽取一个作为负例；对60％的图像数据选择从文本集合中抽取和实际匹配文本包含相同实体词的文本作为负例。权　利　要　求　书 2/3 页 3 CN 114492646 A 3

专利 一种基于跨模态互注意力机制的图文匹配方法

专利一种基于跨模态互注意力机制的图文匹配方法