专利 模型训练方法、指代表达式生成方法及相关设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210977997.0 (22)申请日 2022.08.16 (65)同一申请的已公布的文献号申请公布号 CN 115049899 A (43)申请公布日 2022.09.13 (73)专利权人粤港澳大湾区数字经济研究院（福田）地址 518045 广东省深圳市福田区福保街道市花路长富金茂大厦1号楼39楼 3901单元 (72)发明人黄仕嘉　李峰　张浩　刘世隆　张磊　 (74)专利代理机构深圳市君胜知识产权代理事务所(普通合伙) 44268 专利代理师陈专 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/40(2022.01) G06V 10/74(2022.01)(56)对比文件 CN 114638960 A,2022.06.17 CN 114119975 A,202 2.03.01 CN 112818159 A,2021.0 5.18 CN 114298121 A,202 2.04.08 CN 110503097 A,2019.1 1.26 CN 105718866 A,2016.0 6.29 US 2013259372 A1,2013.10.0 3 US 2017147910 A1,2017.0 5.25 US 2021312628 A1,2021.10.07 US 2020193 552 A1,2020.0 6.18 Shaofei Huang et al.Refer ring Image Segmentati on via Cros s-Modal Progres sive Comprehensi on. 《CVF Co nference o n Computer Vision and Pat tern Recogn ition》 .2020, 10485-10494. 闫茹玉等.结合自底向上注意力机制和记忆网络的视觉问答模型. 《中国图象图形学报》 .2020,(第0 5期),147-16 0. (续) 审查员张笑迪 (54)发明名称模型训练方法、指代表达式生成方法及相关设备 (57)摘要本发明实施例提供了一种模型训练方法、指代表达式生成方法及相关设备，根据对象描述训练样本中样本图像的目标对象的视觉特征和指示对象描述网络模型的第一指示器，生成对象描述训练样本的第一特征向量；根据对象描述训练样本的非目标对象的视觉特征和指示对象描述网络模型的第二指示器，生成对象描述训练样本的第二特征向量；通过指示对象描述网络模型对第一特征向量和第二特征向量进行识别，生成目标对象的生成指代表达式；根据目标对象的原始指代表达式和生成指代表达式，对指示对象描述网络模型训练，得到指代表达式生成模型。通过上述方法得到的指代表达式生成模型生成用于图像中目标对象描述的指代表达式，能够使得图像描述的准确度提高。 [转续页] 权利要求书2页说明书11页附图6页 CN 115049899 B 2022.11.11 CN 115049899 B (56)对比文件汤志平等.一种多层次语义视频对象分割算法. 《上海交通大学学报》 .20 07,第41卷(第01 期),15-18.2/2 页 2[接上页] CN 115049899 B1.一种模型训练方法，其特征在于，所述模型训练方法包括：根据对象描述训练样本的样本图像的目标对象的视觉特征和指示对象描述网络模型的第一指示器，生成所述对象描述训练样本的第一特征向量；以及根据所述对象描述训练样本的非目标对象的视觉特征和所述指示对象描述网络模型的第二指示器，生成所述对象描述训练样本的第二特征向量；其中，所述第一指示器与第二指示器为不同的可学习嵌入向量；所述非目标对象为所述样本图像中除目标对象外的其他对象；所述对象描述训练样本中包括：所述目标对象的原始指代表达式；通过所述指示对象描述网络模型对所述第一特征向量和所述第二特征向量进行识别，生成所述目标对象的生成指代表达式；根据所述目标对象的原始指代表达式和生成指代表达式，对所述指示对象描述网络模型的模型参数进行修正，并继续执行生成下一对象描述训练样本的第一特征向量的步骤，直至所述指示对象描述网络模型的训练情况满足预设条件，得到已训练的指代表达式生成模型；其中，所述指代表达式生成模型用于生成用于描述图像中目标对象的自然语言。 2.根据权利要求1所述的模型训练方法，其特征在于，所述目标对象的数量至少为一个。 3.根据权利要求1所述的模型训练方法，其特征在于，所述模型训练方法还包括：通过主干网络对所述样本图像进行特征提取，生成所述样本图像的图像特征图；将所述样本图像的图像特征图作为输入项，输入至候选对象提取网络模型，以通过所述候选对象提取网络确定所述样本图像中各候选对象的对象分割掩码；根据各候选对象的对象分割掩码，确定所述样本图像中各候选对象的视觉特征；基于所述样本图像中各候选对象的视觉特征，构建所述对象描述训练样本。 4.根据权利要求3所述的模型训练方法，其特征在于，所述将所述样本图像的图像特征图作为输入项，输入至候选对象提取网络模型，以通过所述候选对象提取网络确定所述样本图像中各候选对象的对象分割掩码，具体包括：将所述图像特征图作为输入项，输入至所述候选对象提取网络模型，以通过所述候选对象提取网络模型的掩码注意力层，生成所述样本图像中候选对象的注意力掩码；通过所述候选对象提取网络模型，以根据所述掩码注意力层以及所述图像特征图，生成所述样本图像中各候选对象的对象分割掩码。 5.一种指代表达式生成方法，其特征在于，应用如权利要求1 ‑4任一所述的模型训练方法得到的指代表达式生成模型，所述指代表达式生成方法包括：获取待描述图像中的目标对象和非目标对象的视觉特征；将所述目标对象和非目标对象的视觉特征输入至所述指代表达式生成模型；根据所述目标对象的视觉特征和第一指示器，生成所述待描述图像的第一特征向量；以及根据所述非目标对象的视觉特征和第二指示器，生成所述待描述图像的第二特征向量；通过所述指代表达式生成模型对所述第一特征向量和第二特征向量进行识别，生成所述待描述图像中目标对象的生成指代表达式。权　利　要　求　书 1/2 页 2 CN 115049899 B 3

专利 模型训练方法、指代表达式生成方法及相关设备

专利模型训练方法、指代表达式生成方法及相关设备