(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210977997.0
(22)申请日 2022.08.16
(65)同一申请的已公布的文献号
申请公布号 CN 115049899 A
(43)申请公布日 2022.09.13
(73)专利权人 粤港澳大湾区数字经济 研究院
(福田)
地址 518045 广东省深圳市福田区福保街
道市花路长富金茂大厦1号楼39楼
3901单元
(72)发明人 黄仕嘉 李峰 张浩 刘世隆
张磊
(74)专利代理 机构 深圳市君胜知识产权代理事
务所(普通 合伙) 44268
专利代理师 陈专
(51)Int.Cl.
G06V 10/774(2022.01)
G06V 10/82(2022.01)
G06V 10/40(2022.01)
G06V 10/74(2022.01)(56)对比文件
CN 114638960 A,2022.06.17
CN 114119975 A,202 2.03.01
CN 112818159 A,2021.0 5.18
CN 114298121 A,202 2.04.08
CN 110503097 A,2019.1 1.26
CN 105718866 A,2016.0 6.29
US 2013259372 A1,2013.10.0 3
US 2017147910 A1,2017.0 5.25
US 2021312628 A1,2021.10.07
US 2020193 552 A1,2020.0 6.18
Shaofei Huang et al.Refer ring Image
Segmentati on via Cros s-Modal Progres sive
Comprehensi on. 《CVF Co nference o n Computer
Vision and Pat tern Recogn ition》 .2020,
10485-10494.
闫茹玉等.结合自底向上注意力机制和记 忆
网络的视 觉问答模型. 《中国图象图形 学报》
.2020,(第0 5期),147-16 0. (续)
审查员 张笑迪
(54)发明名称
模型训练方法、 指代表达式生 成方法及相关
设备
(57)摘要
本发明实施例提供了一种模 型训练方法、 指
代表达式生成方法及相关设备, 根据对象描述训
练样本中样本图像的目标对象的视觉特征和指
示对象描述网络模型的第一指示器, 生成对象描
述训练样 本的第一特征向量; 根据对象描述训练
样本的非目标对象的视觉特征和指示对象描述
网络模型的第二指示器, 生 成对象描述训练样本
的第二特征向量; 通过指示对象描述网络模型对
第一特征向量和第二特征向量进行识别, 生成目
标对象的生成指代表达式; 根据目标对象的原始
指代表达式和生成指代表达式, 对指示对象描述
网络模型训练, 得到指代表达式生成模型。 通过上述方法得到的指代表达式生成模型生成用于
图像中目标对象描述的指代表达式, 能够使 得图
像描述的准确度提高。
[转续页]
权利要求书2页 说明书11页 附图6页
CN 115049899 B
2022.11.11
CN 115049899 B
(56)对比文件
汤志平等.一种多层次语义视频对象分割算法. 《上海交通大 学学报》 .20 07,第41卷(第01
期),15-18.2/2 页
2[接上页]
CN 115049899 B1.一种模型训练方法, 其特 征在于, 所述模型训练方法包括:
根据对象描述训练样本的样本图像的目标对象的视觉特征和指示对象描述网络模型
的第一指示器, 生成所述对象描述训练样本的第一特 征向量; 以及
根据所述对象描述训练样本的非目标对象的视觉特征和所述指示对象描述网络模型
的第二指示器, 生成所述对象描述训练样本的第二特 征向量;
其中, 所述第一指示器与第二指示器为不同的可学习嵌入向量; 所述非目标对象为所
述样本图像中除目标对 象外的其他对 象; 所述对 象描述训练样本中包括: 所述目标对 象的
原始指代表达式;
通过所述指示对象描述网络模型对所述第 一特征向量和所述第 二特征向量进行识别,
生成所述目标对象的生成指代 表达式;
根据所述目标对象的原始指代表达式和生成指代表达 式, 对所述指示对象描述网络模
型的模型参数进行修正, 并继续执行生成下一对 象描述训练样本的第一特征向量的步骤,
直至所述指示对象描述网络模型的训练情况满足预设条件, 得到已训练的指代表达式生成
模型;
其中, 所述指代 表达式生成模型用于生成用于描述图像中目标对象的自然语言。
2.根据权利要求1所述的模型训练方法, 其特征在于, 所述目标对象的数量至少为一
个。
3.根据权利要求1所述的模型训练方法, 其特 征在于, 所述模型训练方法还 包括:
通过主干网络对所述样本图像进行 特征提取, 生成所述样本图像的图像特 征图;
将所述样本 图像的图像特征图作为输入项, 输入至候选对象提取网络模型, 以通过所
述候选对象提取网络确定所述样本图像中各候选对象的对象分割掩码;
根据各候选对象的对象分割掩码, 确定所述样本图像中各候选对象的视 觉特征;
基于所述样本图像中各候选对象的视 觉特征, 构建所述对象描述训练样本 。
4.根据权利要求3所述的模型训练方法, 其特征在于, 所述将所述样本图像的图像特征
图作为输入项, 输入至候选对 象提取网络模型, 以通过所述候选对 象提取网络确定所述样
本图像中各候选对象的对象分割掩码, 具体包括:
将所述图像特征图作为输入项, 输入至所述候选对象提取网络模型, 以通过所述候选
对象提取网络模型的掩码注意力层, 生成所述样本图像中候选对象的注意力掩码;
通过所述候选对象提取网络模型, 以根据所述掩码注意力层以及所述图像特征图, 生
成所述样本图像中各候选对象的对象分割掩码。
5.一种指代表达 式生成方法, 其特征在于, 应用如权利要求1 ‑4任一所述的模型训练方
法得到的指代 表达式生成模型, 所述指代 表达式生成方法包括:
获取待描述图像中的目标对象和非目标对象的视 觉特征;
将所述目标对象和非目标对象的视 觉特征输入至所述指代 表达式生成模型;
根据所述目标对象的视觉特征和第一指示器, 生成所述待描述图像的第一特征向量;
以及根据所述非目标对象的视觉特征和第二指示器, 生成所述待描述图像的第二特征向
量;
通过所述指代表达 式生成模型对所述第 一特征向量和第 二特征向量进行识别, 生成所
述待描述图像中目标对象的生成指代 表达式。权 利 要 求 书 1/2 页
2
CN 115049899 B
3
专利 模型训练方法、指代表达式生成方法及相关设备
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:39上传分享