(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210759668.9
(22)申请日 2022.06.30
(71)申请人 陕西科技大 学
地址 710021 陕西省西安市未央区大 学园
(72)发明人 刘伟峰 马力文 王亚宁
(74)专利代理 机构 北京中巡通大知识产权代理
有限公司 1 1703
专利代理师 张晓凯
(51)Int.Cl.
G06T 5/50(2006.01)
G06T 7/33(2017.01)
G06V 10/22(2022.01)
G06V 10/74(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)G06V 20/70(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种多模态融合场景图生成方法、 系统、 设
备和介质
(57)摘要
本发明提供一种多模态融合场景图生成方
法、 系统、 设备和介质, 将给定图片生成图像场景
图; 对给定图片中的文字语义描述生成 并转换为
语义场景图; 基于图像场景图和语义场景图节点
的相似度程度将其对齐并生成融合的目标场景
图; 利用两个场景图的优势实现互补, 得到覆盖
更全面、 交互信息更精确的高质量场景图; 基于
图像生成场景图的方法能够全面捕捉到图像中
的目标, 获得简单的位置关系或常见的交互关
系; 基于语义描述生成场景图的方法包含关键目
标的交互信息, 获得更精准的交互信息; 利用语
义场景图包含高级交互关系的特点, 解决在场景
图生成任务中数据集存在长尾分布、 高级语义交
互关系出现频次少的问题。
权利要求书3页 说明书10页 附图2页
CN 115170449 A
2022.10.11
CN 115170449 A
1.一种多模态融合场景图生成方法, 其特 征在于, 包括以下步骤:
S1: 对给定图片进行目标识别得到目标特征以及子图特征, 根据目标特征和子 图特征
推理关系类别, 生成图像场景图;
S2: 对给定图片中的文字语义描述生成依赖树得到语义图, 将语义图转换为语义场景
图;
S3: 基于图像场景图和语义场景图节点的相似度程度将其进行对齐;
S4: 使用GGNN在对齐后的图像场景图和语义场景图之间的节点间传递消息, 将每个节
点输入进一个完全连接网络, 计算每个节点的输出信息, 对图像场景图中的每个节点聚合
语义场景图的传入信息以及本图的传入信息, 得到每个节点的聚合信息, 生成融合的目标
场景图。
2.根据权利要求1所述一种 多模态融合场景图生成方法, 其特征在于, 所述步骤S1中对
给定图片目标识别包括以下步骤:
使用区域建议网络对给定图片进行识别得到N个目标, 且目标区域建议 为:
fRPN(I)={o0,o1,…,oN‑1};
其中, fRPN(·)为RPN模块, oi为检测出的第i个目标, 由一个边界框bi表示, bi=[xi,yi,
wi,hi]; 边界框由4个元素组成, (xi,yi)为其左上顶 点的坐标, wi和hi分别表示边界框的宽和
高;
将N个目标两两结合组成短语区域建议, 产生N(N ‑1)个对象对, 这些短语区域建议用有
向边完全连接生成关系图;
对目标区域建议和短语区域建议采用最大值抑制方法, 减小数量规模, 得到目标建议
和子图建议并生成相应的目标 特征与子图特 征。
3.根据权利要求2所述一种 多模态融合场景图生成方法, 其特征在于, 所述根据目标特
征和子图特 征推理关系类别包括以下步骤:
基于目标特征采用Faster R‑CNN得到预测目标类别; 基于图像中物体特征和子图特征
联合预测得到关系类别, 所述关系类别为:
其中, xo和xS分别为目标特征与子图特征,
分别为目标oi、 oj的特征,
表示物体
oi、 oj所在的子图Sk的特征;
使用图像中的物体特征作为卷积核从特征图中提取关系, 所述子图特征图卷积结果
为:
其中,
为子图特征图以第i个物体作为卷积核的卷积结果,
为卷积操作, 同理可以
得到子图特征图以第j个物体作为卷积核的卷积结果
将
与子图特 征
拼接, 使用一个全连接层来预测目标间的关系类别为:
其中, FC(·)为全连接层, 其包 含一层Softmax层;权 利 要 求 书 1/3 页
2
CN 115170449 A
2在训练过程中, 通过目标检测损 失和关系分类损 失来优化图像场景图的生成过程, 使
得生成的图像场景图更加接 近真值, 损失函数为:
L= λpcLpc+λocLoc+λbrLbr·1(object);
其中, Lpc为谓词分类损失, Loc为物体分类损失, Lbr为边界框回归损失; λpc、 λoc和 λbr为超
参数; 1(object)为如果 边界框内是目标则为1, 如果是背景信息则为0 。
4.根据权利要求3所述一种多模态融合场景图生成方法, 其特征在于, 对于Lpc谓词的检
测, 使用Softmax函数, 输出为所有候选谓词的概 率; Lpc为交叉熵损失;
目标检测分类的损失也定义为交叉熵损失, 对于边界框回归损失, 采用smooth L1损
失。
5.根据权利要求3所述一种 多模态融合场景图生成方法, 其特征在于, 生成图像场景图
包括以下步骤:
用一个矩阵表示场景 图, 其中对角位置(i,i)为第i个物体, (i,j)位置上的元素为第i
和第j个物体的关系短语; 对于第i个对象, 根据其细化特征被预测为某个物体或者背 景, 第
(i,j)个短语根据短语特 征被预测为某个谓词或者无关, 生成图像场景图。
6.根据权利要求5所述一种 多模态融合场景图生成方法, 其特征在于, 步骤S3基于图像
场景图和语义场景图节点的相似度程度将其进行对齐包括以下步骤;
图像场景图中的节点为vi(i=1,…,n1), 语义场景图的节点为vj(j=1,…,n2), 计算图
像场景图中每 个节点与语义场景图中每 个节点的成对相似度:
其中, <·>为:
<x,y>=φ(x)Tφ(y);
其中, φ(·)为可训练的全连接层, T为 转置;
选取最高的相似度值对应的节点作为对应节点, 每次计算时不排除已经成对的节点,
当某个节点对应的节点已经被选取成对, 则再次比较, 选取匹配度最大 的一对作为成对节
点, 剩下的重新计算。
7.根据权利要求1所述一种 多模态融合场景图生成方法, 其特征在于, 所述步骤S4中聚
合信息为:
其中, 场景图中目标节点为vi, 对应语义场景图中的节点为v ′i, φ←为另一个可训练的
完全连接网络,
为语义场景 图中节点v ′i的输出信息; j为与节点i有边关联的节点,
为边的权重;
所述节点间传递消息的传播机制为:
权 利 要 求 书 2/3 页
3
CN 115170449 A
3
专利 一种多模态融合场景图生成方法、系统、设备和介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:18上传分享