standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210759668.9 (22)申请日 2022.06.30 (71)申请人 陕西科技大 学 地址 710021 陕西省西安市未央区大 学园 (72)发明人 刘伟峰 马力文 王亚宁  (74)专利代理 机构 北京中巡通大知识产权代理 有限公司 1 1703 专利代理师 张晓凯 (51)Int.Cl. G06T 5/50(2006.01) G06T 7/33(2017.01) G06V 10/22(2022.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01)G06V 20/70(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种多模态融合场景图生成方法、 系统、 设 备和介质 (57)摘要 本发明提供一种多模态融合场景图生成方 法、 系统、 设备和介质, 将给定图片生成图像场景 图; 对给定图片中的文字语义描述生成 并转换为 语义场景图; 基于图像场景图和语义场景图节点 的相似度程度将其对齐并生成融合的目标场景 图; 利用两个场景图的优势实现互补, 得到覆盖 更全面、 交互信息更精确的高质量场景图; 基于 图像生成场景图的方法能够全面捕捉到图像中 的目标, 获得简单的位置关系或常见的交互关 系; 基于语义描述生成场景图的方法包含关键目 标的交互信息, 获得更精准的交互信息; 利用语 义场景图包含高级交互关系的特点, 解决在场景 图生成任务中数据集存在长尾分布、 高级语义交 互关系出现频次少的问题。 权利要求书3页 说明书10页 附图2页 CN 115170449 A 2022.10.11 CN 115170449 A 1.一种多模态融合场景图生成方法, 其特 征在于, 包括以下步骤: S1: 对给定图片进行目标识别得到目标特征以及子图特征, 根据目标特征和子 图特征 推理关系类别, 生成图像场景图; S2: 对给定图片中的文字语义描述生成依赖树得到语义图, 将语义图转换为语义场景 图; S3: 基于图像场景图和语义场景图节点的相似度程度将其进行对齐; S4: 使用GGNN在对齐后的图像场景图和语义场景图之间的节点间传递消息, 将每个节 点输入进一个完全连接网络, 计算每个节点的输出信息, 对图像场景图中的每个节点聚合 语义场景图的传入信息以及本图的传入信息, 得到每个节点的聚合信息, 生成融合的目标 场景图。 2.根据权利要求1所述一种 多模态融合场景图生成方法, 其特征在于, 所述步骤S1中对 给定图片目标识别包括以下步骤: 使用区域建议网络对给定图片进行识别得到N个目标, 且目标区域建议 为: fRPN(I)={o0,o1,…,oN‑1}; 其中, fRPN(·)为RPN模块, oi为检测出的第i个目标, 由一个边界框bi表示, bi=[xi,yi, wi,hi]; 边界框由4个元素组成, (xi,yi)为其左上顶 点的坐标, wi和hi分别表示边界框的宽和 高; 将N个目标两两结合组成短语区域建议, 产生N(N ‑1)个对象对, 这些短语区域建议用有 向边完全连接生成关系图; 对目标区域建议和短语区域建议采用最大值抑制方法, 减小数量规模, 得到目标建议 和子图建议并生成相应的目标 特征与子图特 征。 3.根据权利要求2所述一种 多模态融合场景图生成方法, 其特征在于, 所述根据目标特 征和子图特 征推理关系类别包括以下步骤: 基于目标特征采用Faster  R‑CNN得到预测目标类别; 基于图像中物体特征和子图特征 联合预测得到关系类别, 所述关系类别为: 其中, xo和xS分别为目标特征与子图特征, 分别为目标oi、 oj的特征, 表示物体 oi、 oj所在的子图Sk的特征; 使用图像中的物体特征作为卷积核从特征图中提取关系, 所述子图特征图卷积结果 为: 其中, 为子图特征图以第i个物体作为卷积核的卷积结果, 为卷积操作, 同理可以 得到子图特征图以第j个物体作为卷积核的卷积结果 将 与子图特 征 拼接, 使用一个全连接层来预测目标间的关系类别为: 其中, FC(·)为全连接层, 其包 含一层Softmax层;权 利 要 求 书 1/3 页 2 CN 115170449 A 2在训练过程中, 通过目标检测损 失和关系分类损 失来优化图像场景图的生成过程, 使 得生成的图像场景图更加接 近真值, 损失函数为: L= λpcLpc+λocLoc+λbrLbr·1(object); 其中, Lpc为谓词分类损失, Loc为物体分类损失, Lbr为边界框回归损失; λpc、 λoc和 λbr为超 参数; 1(object)为如果 边界框内是目标则为1, 如果是背景信息则为0 。 4.根据权利要求3所述一种多模态融合场景图生成方法, 其特征在于, 对于Lpc谓词的检 测, 使用Softmax函数, 输出为所有候选谓词的概 率; Lpc为交叉熵损失; 目标检测分类的损失也定义为交叉熵损失, 对于边界框回归损失, 采用smooth  L1损 失。 5.根据权利要求3所述一种 多模态融合场景图生成方法, 其特征在于, 生成图像场景图 包括以下步骤: 用一个矩阵表示场景 图, 其中对角位置(i,i)为第i个物体, (i,j)位置上的元素为第i 和第j个物体的关系短语; 对于第i个对象, 根据其细化特征被预测为某个物体或者背 景, 第 (i,j)个短语根据短语特 征被预测为某个谓词或者无关, 生成图像场景图。 6.根据权利要求5所述一种 多模态融合场景图生成方法, 其特征在于, 步骤S3基于图像 场景图和语义场景图节点的相似度程度将其进行对齐包括以下步骤; 图像场景图中的节点为vi(i=1,…,n1), 语义场景图的节点为vj(j=1,…,n2), 计算图 像场景图中每 个节点与语义场景图中每 个节点的成对相似度: 其中, <·>为: <x,y>=φ(x)Tφ(y); 其中, φ(·)为可训练的全连接层, T为 转置; 选取最高的相似度值对应的节点作为对应节点, 每次计算时不排除已经成对的节点, 当某个节点对应的节点已经被选取成对, 则再次比较, 选取匹配度最大 的一对作为成对节 点, 剩下的重新计算。 7.根据权利要求1所述一种 多模态融合场景图生成方法, 其特征在于, 所述步骤S4中聚 合信息为: 其中, 场景图中目标节点为vi, 对应语义场景图中的节点为v ′i, φ←为另一个可训练的 完全连接网络, 为语义场景 图中节点v ′i的输出信息; j为与节点i有边关联的节点, 为边的权重; 所述节点间传递消息的传播机制为: 权 利 要 求 书 2/3 页 3 CN 115170449 A 3

PDF文档 专利 一种多模态融合场景图生成方法、系统、设备和介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多模态融合场景图生成方法、系统、设备和介质 第 1 页 专利 一种多模态融合场景图生成方法、系统、设备和介质 第 2 页 专利 一种多模态融合场景图生成方法、系统、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:32:18上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。