standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210028541.X (22)申请日 2022.01.11 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 舒畅 陈又新  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 代理人 麦广林 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/26(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称 图像描述语句生 成模块的训练方法及 装置、 电子设备 (57)摘要 一种图像描述语句生成模块的训练方法及 装置、 电子设备, 该方法包括: 获取第一样本图像 及其第一描述语句, 并将第一样 本图像输入预先 训练的预测模块中进行标签识别, 得到至少一个 第一特征标签及其第一概率向量。 获取第一特征 标签的标签向量, 并根据第一特征标签的标签向 量和第一概率向量, 生成第一特征标签的特征信 息。 最后, 根据特征信息和第一描述语句对生成 式模型进行训练, 得到语句生成模块, 既引入对 特征标签的重要性分析, 又基于特征信息的可导 性实现误差量的梯度反传, 达到更优训练效果, 提升图像描述的准确性。 权利要求书2页 说明书9页 附图3页 CN 114358203 A 2022.04.15 CN 114358203 A 1.一种图像描述语句生成模块的训练方法, 其特 征在于, 所述方法包括: 获取第一样本图像和所述第一样本图像的第一描述语句; 将所述第一样本图像输入预先训练 的预测模块中进行标签识别, 得到至少一个第 一特 征标签以及所述第一特 征标签对应的第一 概率向量; 获取所述第 一特征标签的标签向量, 并根据 所述第一特征标签的标签向量和所述第 一 概率向量, 生成所述第一特 征标签的特 征信息; 根据所述特 征信息和所述第一描述语句对生成式模型进行训练, 得到语句生成模块。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述特征信 息和所述第 一描述语 句对生成式模型进行训练, 得到语句生成模块之后, 所述方法还 包括: 获取目标图像, 并将所述目标图像输入所述预测模块中进行标签识别, 得到所述目标 图像的标签信息; 将所述标签信息 输入所述语句生成模块, 得到所述目标图像的目标描述语句。 3.根据权利要求2所述的方法, 其特征在于, 所述语句生成模块包括第 一生成模块和第 二生成模块, 所述标签信息包括至少一个目标标签; 所述将所述标签信息输入所述语句生 成模块, 得到所述目标图像的目标描述语句, 包括: 将所述至少一个目标标签输入所述第 一生成模块, 得到所述目标标签对应的语句位置 信息, 所述语句位置信息用于表示所述目标 标签在语句中的位置; 根据至少一个所述目标 标签和所述目标 标签对应的语句位置信息, 生成标签序列; 将所述标签序列输入所述第二 生成模块, 得到所述目标图像的目标描述语句。 4.根据权利要求2所述的方法, 其特征在于, 所述将所述目标图像输入所述预测模块中 进行标签识别, 得到所述目标图像的标签信息, 包括: 将所述目标图像输入所述预测模块, 得到输出矩阵, 所述输出矩阵包括至少一个第二 特征标签以及所述第二特 征标签对应的第二 概率向量; 根据目标函数和至少一个所述第二概率向量, 计算所述第二概率向量的求和值, 并取 求和值最大的k个第二 概率向量为目标概 率向量, k 为正整数; 根据所述目标概 率向量对应的第二特 征标签, 确定k个目标 标签; 其中, 所述目标函数满足: 其中, i和j均为正整数, Yij为所述输出矩阵中第i个第二概率向量的第j项向量数据, f 为求和函数, Si 为第i个第二 概率向量的求和值。 5.根据权利要求1至4任一项所述的方法, 其特 征在于, 所述预测模块的训练步骤 包括: 获取多个样本数据, 所述样本数据包括第 二样本图像以及所述第 二样本图像对应的样 本标签, 所述第二样本图像包括多个目标分割区域以及为所述目标分割区域标注的示例标 签; 将所述多个样本数据分为第一比例的训练集和第二比例的验证集; 利用所述训练集训练卷积神经网络, 得到预测模块, 并利用所述验证集验证所述预测 模块的准确率, 若准确率大于或者等于预设准确率, 则训练结束, 或者, 若准确率小于所述 预设准确率, 则增 加样本数据的数量并重新执 行所述预测模块的训练步骤。权 利 要 求 书 1/2 页 2 CN 114358203 A 26.根据权利要求1至4任一项所述的方法, 其特征在于, 所述根据所述第一特征标签的 标签向量和所述第一 概率向量, 生成所述第一特 征标签的特 征信息, 包括: 将所述第一特征标签的标签向量与 所述第一概率向量相乘, 得到所述第 一特征标签的 特征信息。 7.根据权利要求1至4任一项所述的方法, 其特 征在于, 所述获取第一样本图像, 包括: 获取原始图像; 对所述原始图像进行数据增强处理, 得到处理后的原始图像, 所述数据增强处理至少 包括图像编辑处理和随机高斯模糊处理, 所述图像编辑处理包括以下至少一种: 旋转、 缩 放、 移位和裁 剪; 取所述原始图像和所述处 理后的原 始图像作为第一样本图像。 8.一种图像描述语句生成模块的训练装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取第一样本图像和所述第一样本图像的第一描述语句; 识别模块, 用于将所述第一样本 图像输入预先训练的预测模块中进行标签识别, 得到 至少一个第一特 征标签以及所述第一特 征标签对应的第一 概率向量; 所述获取模块, 还用于获取 所述第一特 征标签的标签向量; 生成模块, 用于根据所述第一特征标签的标签向量和所述第一概率向量, 生成所述第 一特征标签的特 征信息; 训练模块, 用于根据所述特征信息和所述第一描述语句对生成式模型进行训练, 得到 语句生成模块。 9.一种电子设备, 其特征在于, 所述电子设备包括存储器、 处理器、 存储在所述存储器 上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通 信的数据总线, 所述程序被所述处理器执行时实现如权利要求1至7任一项所述的图像描述 语句生成模块的训练方法的步骤。 10.一种存储介质, 用于计算机可读存储, 其特征在于, 所述存储介质存储有一个或者 多个程序, 所述一个或者多个程序可被一个或者多个处理器执行, 以实现权利要求1至7中 任一项所述的图像描述语句生成模块的训练方法的步骤。权 利 要 求 书 2/2 页 3 CN 114358203 A 3

PDF文档 专利 图像描述语句生成模块的训练方法及装置、电子设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 图像描述语句生成模块的训练方法及装置、电子设备 第 1 页 专利 图像描述语句生成模块的训练方法及装置、电子设备 第 2 页 专利 图像描述语句生成模块的训练方法及装置、电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。