standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210718696.6 (22)申请日 2022.06.23 (71)申请人 天津理工大 学 地址 300384 天津市西青区 宾水西道391号 (72)发明人 孟铃涛 张飞飞 徐常胜  (74)专利代理 机构 南京智造力知识产权代理有 限公司 32382 专利代理师 王军丽 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/33(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/74(2022.01)G06V 10/762(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于局部共享语义中心的图像文本跨 模态检索模型、 方法及计算机设备 (57)摘要 本发明公开了一种基于局部共享语义中心 的图像文本跨模态检索模型、 方法及计算机设 备, 首先使用预训练的Faster  R‑CNN和预训练的 Bert提取图像中的区域特征与文本的单词级特 征。 然后定义一组图像文本共享的可训练的语义 中心, 计算每一个局部特征和语义中心的相似 度, 根据相似度将局部特征分配到多个语义中 心, 得到多个语义对齐的图像表示和文本表示。 使用bi‑GRU对图像的区域特征权重和文本的单 词特征权重进行多层级建模, 求出整合局部特征 的多层全局表 示。 通过语义对齐的图像表示和文 本表示计算图像和文本的局部相似度, 通过图像 和文本的多层全局表示计算图像和文本的全局 相似度。 本发 明能够有效提高图像文本跨模态检 索的准确率。 权利要求书5页 说明书9页 附图1页 CN 114969423 A 2022.08.30 CN 114969423 A 1.一种基于局部共享语义中心的图像文本跨模态检索模型, 其特征在于, 该模型通过 以下得到: S1, 分别提取图像的区域特征和文本的单词级特征, 然后经过两层独立映射分别得到 用于局部对齐和全局对齐的图像特 征和文本特 征; S2, 对S1中的图像特 征和文本的特 征进行聚类, 得到k个初始化的共享语义中心; S3, 获得图像文本对齐语义表示: 计算S1中图像文本特征和步骤S2中共享语义中心的 相似度, 利用该相似度将图像特征聚合为k个对应共享语义中心的图像对齐语义表示, 即为 图像上下文 特征, 将文本特征聚合为k个对应共享语义中心的文本对齐语义表 示, 即为文本 上下文特征; S4, 对步骤1中图像的区域特征和文本单词级特征的池化操作进行建模, 得到图像全局 表示和文本全局表示; S5, 利用步骤S3 中具有相同共享语义中心的图像语义表示和文本语义表示计算图像文 本的局部相似度, 利用步骤S4中图像全局表示和文本全局表示计算图像文本的全局相似 度, 图像和文本的整体相似度用局部相似度和全局相似度的加权和表示, 完成建模。 2.根据权利要求1所述的一种基于局部共享语义中心的图像文本跨模态检索模型, 其 特征在于, 所述S1的具体实现包括: S1.1图像的特 征提取 给定图像I, 使用预训练的Faster  R‑CNN检测图像中的区域ri, 并且提取每个区域ri的 特征fi, 然后使用两个 独立的多层感知机将图像的区域特 征fi分别映射得到 和 式(1)(2)中, MLPVl、 MLPVl表示两个独立的多层感知机, 分别得到用于局部对齐和全局对 齐的图像特 征, 表示为 和 S1.2文本的特 征提取 给定文本S, 首先使用分词工具将文本分为多个独立的单词, 并且用0将单词填充到固 定长度, 将长度固定的单词序列输入到预训练的Bert得到单词级的文本特征, 然后使用两 个独立的多层感知机将文本的单词级特 征fi分别映射得到 和 zi=Bert(si)#(3) 式(3)中, Bert表示预训练的Bert网络, si表示原始的输入文本, zi表示由Bert提取的文 本单词级特征, 式(4)(5)中, MLPTl、 MLPTg表示两个独立的多层感知 机, 分别得到用于局部对 齐和全局对齐的文本特 征表示为 和 3.根据权利要求1所述的一种基于局部共享语义中心的图像文本跨模态检索模型, 其 特征在于, 所述S2的具体实现包括:权 利 要 求 书 1/5 页 2 CN 114969423 A 2S2.1在训练数据集中对用于局部对齐的图像特征Vl和用于局部对齐的文本特征Tl进行 随机采样, 得到若干个未 经训练的图像特 征和文本特 征, S2.2对随机采样的图像特征和文本特征进行K ‑means聚类, 得到k个初始化的聚类中心 k<<m且k< <n, S2.3将初始化的聚类中心C定义为可训练的共享语义中心, 共享语义中心的参数随网 络训练而更新。 4.根据权利要求1所述的一种基于局部共享语义中心的图像文本跨模态检索模型, 其 特征在于, 所述S3的具体实现包括: S3.1获得图像的对齐 语义表示 为了得到与共享语义中心对齐的图像上下文特征, 计算图像特征与共享语义中心的余 弦相似度: 式(6)中 表示第i个共享语义中心的转置, 表示第j个用于局部对齐的图像特征, 表示第i个共享语义中心与第 j个用于局部对齐的图像特征的余弦相似度,对余弦相似度 矩 阵进行softamx运 算, 得到归一 化的相似度矩阵: 式(7)中, λ表示温度系数, aij表示归一化后的余弦相似度, 将 作为 的权重, 计算出 对应语义中心ci的图像局部特 征: 式(8)中, pi指对应于第i个共享语义中心ci的图像上下文特征, 从而得到共享语义对齐 的图像特 征 S3.2获得文本的对齐 语义表示 如同步骤S3.1, 为了得到与共享语义中心对齐的文本上下文特征, 计算文本特征与共 享语义中心的余弦相似度: 式(9)中 表示第i个共享语义中心的转置, 表示第j个用于局部对齐的文本特征, 表示第i个共享语义中心与第 j个用于局部对齐的文本特征的余弦相似度,对余弦相似度 矩 阵进行softamx运 算, 得到归一 化的相似度矩阵: 权 利 要 求 书 2/5 页 3 CN 114969423 A 3

PDF文档 专利 一种基于局部共享语义中心的图像文本跨模态检索模型、方法及计算机设备

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于局部共享语义中心的图像文本跨模态检索模型、方法及计算机设备 第 1 页 专利 一种基于局部共享语义中心的图像文本跨模态检索模型、方法及计算机设备 第 2 页 专利 一种基于局部共享语义中心的图像文本跨模态检索模型、方法及计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:32:26上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。