(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210716885.X
(22)申请日 2022.06.23
(71)申请人 齐鲁工业大学
地址 250353 山东省济南市长清区大 学路
3501号
(72)发明人 孙涛 魏记书 权志邦 张子豪
钟慎杰
(74)专利代理 机构 济南圣达知识产权代理有限
公司 372 21
专利代理师 黄海丽
(51)Int.Cl.
G06F 16/583(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/74(2022.01)G06V 10/75(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于Bert和自注意机制的图文匹配方法及
系统
(57)摘要
本公开提供了一种基于Bert和自注意机制
的图文匹配方法及系统, 其属于图文匹配技术领
域, 所述方案包括获取待匹配的图像及文本数
据; 将所述待匹配的图像及 文本数据输入预先训
练的图文匹配模 型中, 获得所述图像数据与文本
数据之间的相似度; 基于所述相似度的大小确定
图像和文本的匹配关系; 其中, 所述图文匹配模
型具体处理过程为: 所述图像数据经图像区域语
义特征提取模块提取图像语义特征, 所述文本数
据经文本 特征提取模块提取文本特征, 基于获得
的图像语义特征和文本特征, 通过交叉注意及相
似注意过滤模块实现图像区域和单词的对齐并
去除冗余信息, 最后通过全 连接层获得相似度结
果。
权利要求书2页 说明书8页 附图1页
CN 115203459 A
2022.10.18
CN 115203459 A
1.一种基于Ber t和自注意机制的图文匹配方法, 其特 征在于, 包括:
获取待匹配的图像及文本数据;
将所述待 匹配的图像及文本数据输入预先训练的图文匹配模型中, 获得所述图像数据
与文本数据之间的相似度; 基于所述相似度的大小确定图像和文本的匹配关系;
其中, 所述图文匹配模型具体处理过程为: 所述图像数据经图像区域语义特征提取模
块提取图像语义特征, 所述文本数据经文本特征提取模块提取文本特征, 基于获得 的图像
语义特征和文本特征, 通过 交叉注意及相似注意过滤模块实现图像区域和单词的对齐并去
除冗余信息, 最后通过全连接层获得相似度结果。
2.如权利要求1所述的一种基于Bert和自注意机制的图文匹配方法, 其特征在于, 所述
图像数据经图像区域语义特征提取模块提取图像语义特征, 具体为: 基于预先训练的深度
学习模型对所述图像数据进行特征提取, 同时, 在特征提取过程中在所述深度学习模型中
引入自注意模型来捕捉图像特 征序列中各项之间的依赖关系。
3.如权利要求2所述的一种基于Bert和自注意机制的图文匹配方法, 其特征在于, 所述
深度学习模型采用Fast ‑RCNN模型。
4.如权利要求1所述的一种基于Bert和自注意机制的图文匹配方法, 其特征在于, 所述
文本数据经文本特征提取模块提取文本特征, 具体为: 获取文本数据的词嵌入表示, 并将所
述词嵌入表示输入预 先训练的Ber t模型, 获得文本特 征。
5.如权利要求1所述的一种基于Bert和自注意机制的图文匹配方法, 其特征在于, 所述
通过交叉注意及相似注意过 滤模块实现图像区域和单词的对齐并去除冗余信息, 具体为:
基于获得的图像语义特征及文本特征, 计算所有图像区域与单词对之间的相似度; 基
于所述相似度, 确定与当前图像区域相关的单词, 进而确定当前图像区域关注的文本矢量
图; 计算所述文本矢量图与各个图像区域间的余弦距离; 基于所有图像区域与其关注文本
之间的余弦距离, 确定图像与文本之间的相似度; 基于图像与文本 之间的相似度, 利用相似
注意过滤机制进 行图像区域权重的调整; 并基于预设阈值去除权重低于所述预设阈值的图
像区域。
6.如权利要求1所述的一种基于Bert和自注意机制的图文匹配方法, 其特征在于, 所述
图文匹配模型采用如下目标函数:
其中, c表示间距,(I,T)表示真正匹配的图文 对,
表示负样本, Υ(I,T)表示图文间的
相似度。
7.一种基于Ber t和自注意机制的图文匹配系统, 其特 征在于, 包括:
数据获取 单元, 其用于获取待匹配的图像及文本数据;
匹配单元, 其用于将所述待匹配的图像及文本数据输入预先训练的图文匹配模型中,
获得所述图像数据与文本数据之间的相似度; 基于所述相似度的大小确定图像和文本的匹
配关系;
其中, 所述图文匹配模型具体处理过程为: 所述图像数据经图像区域语义特征提取模
块提取图像语义特征, 所述文本数据经文本特征提取模块提取文本特征, 基于获得 的图像
语义特征和文本特征, 通过 交叉注意及相似注意过滤模块实现图像区域和单词的对齐并去权 利 要 求 书 1/2 页
2
CN 115203459 A
2除冗余信息, 最后通过全连接层获得相似度结果。
8.如权利要求7所述的一种基于Bert和自注意机制的图文匹配系统, 其特征在于, 所述
通过交叉注意及相似注意过 滤模块实现图像区域和单词的对齐并去除冗余信息, 具体为:
基于获得的图像语义特征及文本特征, 计算所有图像区域与单词对之间的相似度; 基
于所述相似度, 确定与当前图像区域相关的单词, 进而确定当前图像区域关注的文本矢量
图; 计算所述文本矢量图与各个图像区域间的余弦距离; 基于所有图像区域与其关注文本
之间的余弦距离, 确定图像与文本之间的相似度; 基于图像与文本 之间的相似度, 利用相似
注意过滤机制进 行图像区域权重的调整; 并基于预设阈值去除权重低于所述预设阈值的图
像区域。
9.一种电子设备, 包括存储器、 处理器及存储在存储器上运行的计算机程序, 其特征在
于, 所述处理器执行所述程序时实现如权利要求1 ‑6任一项所述的一种基于Bert和自注意
机制的图文匹配方法。
10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被
处理器执行时实现如权利要求1 ‑6任一项所述的一种基于Bert和自注 意机制的图文匹配方
法。权 利 要 求 书 2/2 页
3
CN 115203459 A
3
专利 基于Bert和自注意机制的图文匹配方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:26上传分享