专利 一种多模态融合场景图生成方法、系统、设备和介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210759668.9 (22)申请日 2022.06.30 (71)申请人陕西科技大学地址 710021 陕西省西安市未央区大学园 (72)发明人刘伟峰　马力文　王亚宁　 (74)专利代理机构北京中巡通大知识产权代理有限公司 1 1703 专利代理师张晓凯 (51)Int.Cl. G06T 5/50(2006.01) G06T 7/33(2017.01) G06V 10/22(2022.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01)G06V 20/70(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种多模态融合场景图生成方法、系统、设备和介质 (57)摘要本发明提供一种多模态融合场景图生成方法、系统、设备和介质，将给定图片生成图像场景图；对给定图片中的文字语义描述生成并转换为语义场景图；基于图像场景图和语义场景图节点的相似度程度将其对齐并生成融合的目标场景图；利用两个场景图的优势实现互补，得到覆盖更全面、交互信息更精确的高质量场景图；基于图像生成场景图的方法能够全面捕捉到图像中的目标，获得简单的位置关系或常见的交互关系；基于语义描述生成场景图的方法包含关键目标的交互信息，获得更精准的交互信息；利用语义场景图包含高级交互关系的特点，解决在场景图生成任务中数据集存在长尾分布、高级语义交互关系出现频次少的问题。权利要求书3页说明书10页附图2页 CN 115170449 A 2022.10.11 CN 115170449 A 1.一种多模态融合场景图生成方法，其特征在于，包括以下步骤： S1：对给定图片进行目标识别得到目标特征以及子图特征，根据目标特征和子图特征推理关系类别，生成图像场景图； S2：对给定图片中的文字语义描述生成依赖树得到语义图，将语义图转换为语义场景图； S3：基于图像场景图和语义场景图节点的相似度程度将其进行对齐； S4：使用GGNN在对齐后的图像场景图和语义场景图之间的节点间传递消息，将每个节点输入进一个完全连接网络，计算每个节点的输出信息，对图像场景图中的每个节点聚合语义场景图的传入信息以及本图的传入信息，得到每个节点的聚合信息，生成融合的目标场景图。 2.根据权利要求1所述一种多模态融合场景图生成方法，其特征在于，所述步骤S1中对给定图片目标识别包括以下步骤：使用区域建议网络对给定图片进行识别得到N个目标，且目标区域建议为： fRPN(I)＝{o0,o1,…,oN‑1}；其中， fRPN(·)为RPN模块， oi为检测出的第i个目标，由一个边界框bi表示， bi＝[xi,yi, wi,hi]；边界框由4个元素组成， (xi,yi)为其左上顶点的坐标， wi和hi分别表示边界框的宽和高；将N个目标两两结合组成短语区域建议，产生N(N ‑1)个对象对，这些短语区域建议用有向边完全连接生成关系图；对目标区域建议和短语区域建议采用最大值抑制方法，减小数量规模，得到目标建议和子图建议并生成相应的目标特征与子图特征。 3.根据权利要求2所述一种多模态融合场景图生成方法，其特征在于，所述根据目标特征和子图特征推理关系类别包括以下步骤：基于目标特征采用Faster R‑CNN得到预测目标类别；基于图像中物体特征和子图特征联合预测得到关系类别，所述关系类别为：其中， xo和xS分别为目标特征与子图特征，分别为目标oi、 oj的特征，表示物体 oi、 oj所在的子图Sk的特征；使用图像中的物体特征作为卷积核从特征图中提取关系，所述子图特征图卷积结果为：其中，为子图特征图以第i个物体作为卷积核的卷积结果，为卷积操作，同理可以得到子图特征图以第j个物体作为卷积核的卷积结果将与子图特征拼接，使用一个全连接层来预测目标间的关系类别为：其中， FC(·)为全连接层，其包含一层Softmax层；权　利　要　求　书 1/3 页 2 CN 115170449 A 2在训练过程中，通过目标检测损失和关系分类损失来优化图像场景图的生成过程，使得生成的图像场景图更加接近真值，损失函数为： L＝ λpcLpc+λocLoc+λbrLbr·1(object)；其中， Lpc为谓词分类损失， Loc为物体分类损失， Lbr为边界框回归损失； λpc、 λoc和 λbr为超参数； 1(object)为如果边界框内是目标则为1，如果是背景信息则为0 。 4.根据权利要求3所述一种多模态融合场景图生成方法，其特征在于，对于Lpc谓词的检测，使用Softmax函数，输出为所有候选谓词的概率； Lpc为交叉熵损失；目标检测分类的损失也定义为交叉熵损失，对于边界框回归损失，采用smooth L1损失。 5.根据权利要求3所述一种多模态融合场景图生成方法，其特征在于，生成图像场景图包括以下步骤：用一个矩阵表示场景图，其中对角位置(i,i)为第i个物体， (i,j)位置上的元素为第i 和第j个物体的关系短语；对于第i个对象，根据其细化特征被预测为某个物体或者背景，第 (i,j)个短语根据短语特征被预测为某个谓词或者无关，生成图像场景图。 6.根据权利要求5所述一种多模态融合场景图生成方法，其特征在于，步骤S3基于图像场景图和语义场景图节点的相似度程度将其进行对齐包括以下步骤；图像场景图中的节点为vi(i＝1,…,n1)，语义场景图的节点为vj(j＝1,…,n2)，计算图像场景图中每个节点与语义场景图中每个节点的成对相似度：其中， <·>为： <x,y>＝φ(x)Tφ(y)；其中， φ(·)为可训练的全连接层， T为转置；选取最高的相似度值对应的节点作为对应节点，每次计算时不排除已经成对的节点，当某个节点对应的节点已经被选取成对，则再次比较，选取匹配度最大的一对作为成对节点，剩下的重新计算。 7.根据权利要求1所述一种多模态融合场景图生成方法，其特征在于，所述步骤S4中聚合信息为：其中，场景图中目标节点为vi，对应语义场景图中的节点为v ′i， φ←为另一个可训练的完全连接网络，为语义场景图中节点v ′i的输出信息； j为与节点i有边关联的节点，为边的权重；所述节点间传递消息的传播机制为：权　利　要　求　书 2/3 页 3 CN 115170449 A 3

专利 一种多模态融合场景图生成方法、系统、设备和介质

专利一种多模态融合场景图生成方法、系统、设备和介质