(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210737343.0
(22)申请日 2022.06.27
(71)申请人 山东建筑大学
地址 250100 山东省济南市历城区临港开
发区凤鸣路
(72)发明人 王永欣 董峰 马玉玲
(74)专利代理 机构 济南圣达知识产权代理有限
公司 372 21
专利代理师 黄海丽
(51)Int.Cl.
G06V 10/46(2022.01)
G06V 10/74(2022.01)
G06V 30/18(2022.01)
G06V 30/19(2022.01)
G06Q 50/00(2012.01)
(54)发明名称
基于标记增强的社交多媒体数据的跨模态
检索方法及系统
(57)摘要
本公开提供了一种基于标记增强的社交多
媒体数据的跨模态检索方法及系统, 包括: 获取
待检索的数据样本; 基于特征提取方法对所述数
据样本进行特征提取; 基于提取的待检索的数据
样本的特征, 利用预先训练得到的相应模态的哈
希函数进行编码, 获得数据样本的哈希码表示;
计算所述数据样本的哈希码表示与待检索数据
库中样本哈希码的相似度值; 基于所述相似度值
获得相应的检索结果; 其中, 所述哈希函数的训
练基于标记增强的方式训练得到, 该方案可以更
好地表征样 本间的相似性, 生 成更具有区分力的
哈希码, 跨模态的检索能力有很大提高。
权利要求书2页 说明书9页 附图1页
CN 115100433 A
2022.09.23
CN 115100433 A
1.一种基于标记增强的社交多媒体数据的跨模态检索方法, 其特 征在于, 包括:
获取待检索的数据样本;
基于特征提取方法对所述数据样本进行 特征提取;
基于提取的待检索的数据样本的特征, 利用预先训练得到的相应模态的哈希函数进行
编码, 获得 数据样本的哈希码表示;
计算所述数据样本的哈希码表示与待检索数据库中样本哈希码的相似度值; 基于所述
相似度值获得相应的检索结果;
其中, 对于不同模态下所述哈希函数的训练, 具体为: 基于待检索数据库中的样本数据
类别, 获得相应的类别词, 并通过词向量模型将所述类别词转化为类别属性; 基于所述类别
属性以及预先构建的目标函数, 求解得到标记增强的标记分布; 基于所述标记分布构造细
粒度的相似性矩阵, 并基于所述相似性矩阵构建内积适应目标函数, 通过求解所述内积适
应目标函数, 获得训练样本的哈希码; 基于所述训练样本的哈希码作为监督信息, 训练得到
不同模态下的哈希函数。
2.如权利要求1所述的一种基于标记增强的社交多媒体数据的跨模态检索方法, 其特
征在于, 所述基于所述相似性矩阵构建内积适应目标函数, 同时, 通过引入一个中间变量代
替所述内积适应目标函数的内积运算中的哈希码, 并通过引入一个正则化项使引入的中间
变量与哈希码站之间的差异最小。
3.如权利要求1所述的一种基于标记增强的社交多媒体数据的跨模态检索方法, 其特
征在于, 所述基于所述训练样本的哈希码作为监督信息, 训练得到不同模态下的哈希函数,
具体采用如下目标函数:
其中, λ为避免过拟合的正则化项的惩罚系数,W(l)是第l模态的映射矩阵, B 是训练集的
哈希码, X(l)为训练样本第l模态的特 征矩阵。
4.如权利要求1所述的一种基于标记增强的社交多媒体数据的跨模态检索方法, 其特
征在于, 基于所述类别属性以及预先构建的目标函数, 求解得到标记增强的标记分布, 具体
采用如下目标函数:
其中,
是投影矩阵, I是单位矩阵,
为旋转矩阵, A为类别属性, L为逻辑
标记, D为标记分布, α 为平衡参数, θ 为 正则化项的惩罚系数。
5.如权利要求1所述的一种基于标记增强的社交多媒体数据的跨模态检索方法, 其特
征在于, 所述基于特征提取方法对所述数据样 本进行特征提取, 具体为:当所述数据样 本为
图像时, 基于SIFT或GIST方法进行图像特征提取; 当所述数据样本为文本时, 基于BoW方法
进行文本特 征提取。
6.如权利要求1所述的一种基于标记增强的社交多媒体数据的跨模态检索方法, 其特
征在于, 所述数据样本包括待检索的图像或待检索的文本, 当所述数据样本为图像时, 其检
索得到的数据为图像所对应的文本; 当所述数据样本为文本时, 其检索得到的数据为文本
所对应的图像。权 利 要 求 书 1/2 页
2
CN 115100433 A
27.如权利要求1所述的一种基于标记增强的社交多媒体数据的跨模态检索方法, 其特
征在于, 所述计算所述数据样本的哈希码表示与待检索数据库中样本哈希码的相似度值,
具体为: 计算所述数据样本的哈希码表示与待检索数据库中样本哈希码的海明距离, 基于
所述距离值对数据库中的样本进 行从小到大排序, 选择前k个样 本作为检索结果, 其中, k为
不小于1的整数。
8.一种基于标记增强的社交多媒体数据的跨模态检索系统, 其特 征在于, 包括:
数据获取 单元, 其用于获取待检索的数据样本;
特征提取单元, 其用于基于特 征提取方法对所述数据样本进行 特征提取;
编码单元, 其用于基于提取的待检索的数据样本的特征, 利用预先训练得到的相应模
态的哈希函数进行编码, 获得 数据样本的哈希码表示;
检索单元, 其用于计算所述数据样本的哈希码表示与待检索数据库中样本哈希码的相
似度值; 基于所述相似度值获得相应的检索结果;
其中, 对于不同模态下所述哈希函数的训练, 具体为: 基于待检索数据库中的样本数据
类别, 获得相应的类别词, 并通过词向量模型将所述类别词转化为类别属性; 基于所述类别
属性以及预先构建的目标函数, 求解得到标记增强的标记分布; 基于所述标记分布构造细
粒度的相似性矩阵, 并基于所述相似性矩阵构建内积适应目标函数, 通过求解所述内积适
应目标函数, 获得训练样本的哈希码; 基于所述训练样本的哈希码作为监督信息, 训练得到
不同模态下的哈希函数。
9.一种电子设备, 包括存储器、 处理器及存储在存储器上运行的计算机程序, 其特征在
于, 所述处理器执行所述程序时实现如权利要求1 ‑7任一项所述的一种基于标记增强的社
交多媒体数据的跨模态检索方法。
10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被
处理器执行时实现如权利要求 1‑7任一项所述的一种基于标记增强的社 交多媒体数据的跨
模态检索方法。权 利 要 求 书 2/2 页
3
CN 115100433 A
3
专利 基于标记增强的社交多媒体数据的跨模态检索方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:24上传分享