(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210105762.2
(22)申请日 2022.01.28
(71)申请人 北京邮电大 学
地址 100876 北京市海淀区西土城路10号
申请人 北京第二外国语学院
(72)发明人 赵海英 魏莱
(74)专利代理 机构 北京世誉鑫诚专利代理有限
公司 11368
专利代理师 仲伯煊
(51)Int.Cl.
G06K 9/62(2022.01)
G06V 10/74(2022.01)
G06V 20/70(2022.01)
G06V 10/82(2022.01)
G06F 40/284(2020.01)G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于跨模态互注意力机制的图文匹配
方法
(57)摘要
本发明公开了一种基于跨模态互注意力机
制的图文匹配方法, 该方法包括以下步骤: 采用
目标检测网络对图像语义特征进行提取, 并采用
中文预训练模 型对文本语义特征进行提取; 通过
图文相似度计算模块对局部图像区域与文本中
单词之间的cos相似度进行计算, 得到注意力权
重, 同时对受图像注意力监督的文本向量进行计
算; 对受图像注意力监督的文本向量与局部图像
的cos相似度进行计算, 并通过求和与平均池化
处理得到完整文本与完整图像 之间的相似度; 计
算图文相似度的预测结果。 本发 明能够推断整个
图像和完整句子之间的相似性, 输出图像和句子
间的相似度数值, 实现图像局部到单词对齐的细
粒度图文匹配 。
权利要求书3页 说明书6页 附图1页
CN 114492646 A
2022.05.13
CN 114492646 A
1.一种基于跨模态互注意力机制的图文匹配方法, 其特 征在于, 该 方法包括以下步骤:
S1、 采用目标检测网络对图像语义特征进行提取, 并采用中文预训练模型对文本语义
特征进行提取;
S2、 构建图文相似度计算模块, 并通过图文相似度计算模块对局部图像区域与文本中
单词之间的cos相似度进 行计算, 得到注 意力权重, 同时对受图像注意力监督的文本向量进
行计算;
S3、 对受图像注意力监督的文本向量与局部图像的cos相似度进行计算, 并通过求和与
平均池化处 理得到完整文本与完整图像之间的相似度;
S4、 训练得到图文匹配预测模型, 并将提取到的图文数据的特征编码输入图文匹配预
测模型, 得到图文相似度的预测结果。
2.根据权利要求1所述的一种基于跨模态互注意力 机制的图文匹配方法, 其特征在于,
所述S1中采用目标检测网络对图像 语义特征进行提取还 包括以下步骤:
采用目标检测网络对图像的兴趣区域特 征Vr和POS特征Vp进行提取;
将Vr与Vp进行拼接, 得到图像 语义特征Vs。
3.根据权利要求1所述的一种基于跨模态互注意力 机制的图文匹配方法, 其特征在于,
所述S1中采用中文预训练模型对文本语义特 征进行提取还 包括以下步骤:
采用中文分词技 术jieba对中文 文本进行分词得到单词列表;
采用Word Embedding获取单词的词向量Tw, 且将词向量Tw输入双向GRU网络, 并提取出
文本特征Tl;
采用Bert中文预训练网络对文本特征Tl进行语义特征Ts的提取, 并将该语义特征Ts作
为最终的文本语义特 征。
4.根据权利要求3所述的一种基于跨模态互注意力 机制的图文匹配方法, 其特征在于,
所述S2中构建图文相似度计算模块时, 将图像语义特征Vs及文本语义特征Ts输入图文相似
度计算模块得到图像 语义特征Vs与文本语义特 征Ts之间的相似度。
5.根据权利要求1所述的一种基于跨模态互注意力 机制的图文匹配方法, 其特征在于,
所述S2中对受图像注意力监 督的文本向量进行计算还 包括以下步骤:
将图像按照兴趣区域数量 k分为k个局部区域, 并设定其中一个局部区域 为Vi;
将文本按照单词数量 n分为n个单词, 并设定其中一个单词为 Wj;
对Vi及Wj进行cos相似度的计算, 计算公式如下:
并归一化处理得到
其中, [x]+≡max(x,0);
通过softmax函数计算权 重aij, 公式如下:权 利 要 求 书 1/3 页
2
CN 114492646 A
2并通过对单词加权求和得到注意力下 的文本向量
公式如
下:
各式中, Sij是第i个局部图像和第j个 单词间的相似度, vi是第i个局部图像 特征向量, wj
是第j个单词文本特征向量, k是图像按兴趣区数量k被 分割为k个区域, n是句子文本总共切
分为n个单词, Aij是第j个单词根据其与图像相关度计算得到的权重, wj是第j个单词, 一共n
个。
6.根据权利要求5所述的一种基于跨模态互注意力 机制的图文匹配方法, 其特征在于,
所述S3中通过求和与平均池化处理得到完整文本与完整图像之间的相似度还包括以下步
骤:
通过对注意力下的文本向量
及图像局部区域的cos相似度
进行计算, 且
对cos相似度进行求和并经 过平均池化处 理, 得到完整文本和完整图像的相似度SAVG(I,T)。
7.根据权利要求6所述的一种基于跨模态互注意力 机制的图文匹配方法, 其特征在于,
所述完整 文本和完整图像的相似度SAVG(I,T)的计算公式如下:
各式中, Vi是第i个局部图像特征, ai是受图像注意力监督加权后的文本特征, k是总共k
个图像局部块。
8.根据权利要求1所述的一种基于跨模态互注意力 机制的图文匹配方法, 其特征在于,
所述S4中训练得到图文匹配预测模型, 并将提取到的图文 数据的特征编 码输入图文匹配预
测模型, 得到图文相似度的预测结果还 包括以下步骤:
采用随机配对法构建负例并对数据进行训练, 采用Triplet Loss损失函数作为图文匹
配任务的训练目标, 且训练结束后得到图文匹配预测模型;
采用Faster ‑RCNN和双向GRU分别对图文数据的特征编码进行提取, 并将提取到的图文
数据的特 征编码输入图文匹配预测模型, 得到图文相似度的预测结果。
9.根据权利要求8所述的一种基于跨模态互注意力 机制的图文匹配方法, 其特征在于,
所述通过采用随机配对法构建负例对数据进行训练时, 负例构建策略还 包括以下步骤:
对40%的图像数据选择从文本集 合中随机抽取一个作为负例;
对60%的图像数据选择从文本集合中抽取和实 际匹配文本包含相同实体词的文本作
为负例。权 利 要 求 书 2/3 页
3
CN 114492646 A
3
专利 一种基于跨模态互注意力机制的图文匹配方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:40上传分享