专利 图像描述语句生成模块的训练方法及装置、电子设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210028541.X (22)申请日 2022.01.11 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人舒畅　陈又新　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 代理人麦广林 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/26(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称图像描述语句生成模块的训练方法及装置、电子设备 (57)摘要一种图像描述语句生成模块的训练方法及装置、电子设备，该方法包括：获取第一样本图像及其第一描述语句，并将第一样本图像输入预先训练的预测模块中进行标签识别，得到至少一个第一特征标签及其第一概率向量。获取第一特征标签的标签向量，并根据第一特征标签的标签向量和第一概率向量，生成第一特征标签的特征信息。最后，根据特征信息和第一描述语句对生成式模型进行训练，得到语句生成模块，既引入对特征标签的重要性分析，又基于特征信息的可导性实现误差量的梯度反传，达到更优训练效果，提升图像描述的准确性。权利要求书2页说明书9页附图3页 CN 114358203 A 2022.04.15 CN 114358203 A 1.一种图像描述语句生成模块的训练方法，其特征在于，所述方法包括：获取第一样本图像和所述第一样本图像的第一描述语句；将所述第一样本图像输入预先训练的预测模块中进行标签识别，得到至少一个第一特征标签以及所述第一特征标签对应的第一概率向量；获取所述第一特征标签的标签向量，并根据所述第一特征标签的标签向量和所述第一概率向量，生成所述第一特征标签的特征信息；根据所述特征信息和所述第一描述语句对生成式模型进行训练，得到语句生成模块。 2.根据权利要求1所述的方法，其特征在于，所述根据所述特征信息和所述第一描述语句对生成式模型进行训练，得到语句生成模块之后，所述方法还包括：获取目标图像，并将所述目标图像输入所述预测模块中进行标签识别，得到所述目标图像的标签信息；将所述标签信息输入所述语句生成模块，得到所述目标图像的目标描述语句。 3.根据权利要求2所述的方法，其特征在于，所述语句生成模块包括第一生成模块和第二生成模块，所述标签信息包括至少一个目标标签；所述将所述标签信息输入所述语句生成模块，得到所述目标图像的目标描述语句，包括：将所述至少一个目标标签输入所述第一生成模块，得到所述目标标签对应的语句位置信息，所述语句位置信息用于表示所述目标标签在语句中的位置；根据至少一个所述目标标签和所述目标标签对应的语句位置信息，生成标签序列；将所述标签序列输入所述第二生成模块，得到所述目标图像的目标描述语句。 4.根据权利要求2所述的方法，其特征在于，所述将所述目标图像输入所述预测模块中进行标签识别，得到所述目标图像的标签信息，包括：将所述目标图像输入所述预测模块，得到输出矩阵，所述输出矩阵包括至少一个第二特征标签以及所述第二特征标签对应的第二概率向量；根据目标函数和至少一个所述第二概率向量，计算所述第二概率向量的求和值，并取求和值最大的k个第二概率向量为目标概率向量， k 为正整数；根据所述目标概率向量对应的第二特征标签，确定k个目标标签；其中，所述目标函数满足：其中， i和j均为正整数， Yij为所述输出矩阵中第i个第二概率向量的第j项向量数据， f 为求和函数， Si 为第i个第二概率向量的求和值。 5.根据权利要求1至4任一项所述的方法，其特征在于，所述预测模块的训练步骤包括：获取多个样本数据，所述样本数据包括第二样本图像以及所述第二样本图像对应的样本标签，所述第二样本图像包括多个目标分割区域以及为所述目标分割区域标注的示例标签；将所述多个样本数据分为第一比例的训练集和第二比例的验证集；利用所述训练集训练卷积神经网络，得到预测模块，并利用所述验证集验证所述预测模块的准确率，若准确率大于或者等于预设准确率，则训练结束，或者，若准确率小于所述预设准确率，则增加样本数据的数量并重新执行所述预测模块的训练步骤。权　利　要　求　书 1/2 页 2 CN 114358203 A 26.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述第一特征标签的标签向量和所述第一概率向量，生成所述第一特征标签的特征信息，包括：将所述第一特征标签的标签向量与所述第一概率向量相乘，得到所述第一特征标签的特征信息。 7.根据权利要求1至4任一项所述的方法，其特征在于，所述获取第一样本图像，包括：获取原始图像；对所述原始图像进行数据增强处理，得到处理后的原始图像，所述数据增强处理至少包括图像编辑处理和随机高斯模糊处理，所述图像编辑处理包括以下至少一种：旋转、缩放、移位和裁剪；取所述原始图像和所述处理后的原始图像作为第一样本图像。 8.一种图像描述语句生成模块的训练装置，其特征在于，所述装置包括：获取模块，用于获取第一样本图像和所述第一样本图像的第一描述语句；识别模块，用于将所述第一样本图像输入预先训练的预测模块中进行标签识别，得到至少一个第一特征标签以及所述第一特征标签对应的第一概率向量；所述获取模块，还用于获取所述第一特征标签的标签向量；生成模块，用于根据所述第一特征标签的标签向量和所述第一概率向量，生成所述第一特征标签的特征信息；训练模块，用于根据所述特征信息和所述第一描述语句对生成式模型进行训练，得到语句生成模块。 9.一种电子设备，其特征在于，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如权利要求1至7任一项所述的图像描述语句生成模块的训练方法的步骤。 10.一种存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7中任一项所述的图像描述语句生成模块的训练方法的步骤。权　利　要　求　书 2/2 页 3 CN 114358203 A 3

专利 图像描述语句生成模块的训练方法及装置、电子设备

专利图像描述语句生成模块的训练方法及装置、电子设备