专利 一种基于语义注意力机制的零样本语义分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221087967 7.1 (22)申请日 2022.07.25 (71)申请人电子科技大学长三角研究院（湖州）地址 313000 浙江省湖州市西塞山路819号南太湖科技创新综合体B2幢8层 (72)发明人沈冯立　李福生　赵彦春　 (74)专利代理机构北京金智普华知识产权代理有限公司 1 1401 专利代理师郭美 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/40(2022.01) G06V 10/82(2022.01) G06V 10/74(2022.01) G06V 20/70(2022.01)G06N 3/04(2006.01) (54)发明名称一种基于语义注意力机制的零样本语义分割方法 (57)摘要本发明公开了一种基于语义注意力机制的零样本语义分割方法。该方法包括如下步骤：通过背景提取模块提取背景掩码，将背景掩码与初始背景特征一起输入到背景更新模块中，输出学习得到的背景语义特征。通过像素特征提取模块得到语义注意力图和视觉特征图，利用语义特征图和语义注意力图得到适用于当前图片的语义特征，最后计算语义特征和视觉特征图的余弦相似度，根据最大的相似度实现语义分割。本方法通过可学习可更新的背景和语义特征，针对不同的图片学习得到不同的语义特征，根据得到的语义特征帮助零样本语义分割模型更好地针对每一个像素点进行语义分割，提高模型的泛化性和通用性。权利要求书2页说明书4页附图1页 CN 115424014 A 2022.12.02 CN 115424014 A 1.一种基于语义注意力机制的零样本语义分割方法，其特征在于，包括以下步骤：步骤一：构建零样本语义分割数据集；步骤二：将步骤一数据集的训练图片输入到背景提取模块，输出训练图片背景区域的掩码图；步骤三：使用步骤二得到的掩码图掩盖训练图片的前景部分，得到训练图片的背景区域；步骤四：利用训练图片的背景标注，计算训练图片背景的语意分割损失；步骤五：将步骤三得到的背景区域输入到背景特征更新模块，同时将初始背景特征输入到背景模块中；背景特征更新模块输出适用于当前图片语义分割的背景特征；步骤六：将训练图片输入到像素特征提取模块中，像素特征提取模块输出两个图，一个是图片的像素级视觉特征的特征图，另一个是语义注意力图；步骤七：将步骤六中得到的语义注意力图作用在语义特征上得到针对每个像素点进行语义分割的语义特征向量；步骤八：计算步骤七中得到的针对每个像素点的语义特征向量和步骤五中得到的背景特征与步骤六中输出的特征图的每个像素点的相似度，作为每个像素点的分类置信度，通过损失函数计算整图的语义分割损失；步骤九：根据步骤四和步骤八计算的背景和整图的语义分割损失计算总损失，用总损失训练背景提取模块、背景特征更新模块和像素特征提取模块；步骤十：测试的时候，先利用步骤三中的背景提取模块提取测试图片的背景区域掩码，然后利用掩码得到测试图片的背景区域，将背景区域和初始背景特征输入到步骤五中的背景特征更新模块中得到当前测试图片的背景特征；与此同时，将测试图片输入到步骤六中的像素特征提取模型，利用像素特征提取模型输出的语义注意力图得到测试语义特征；最后采用步骤八的方法计算每个像素点的分类置信度，取最大值作为每个像素点的分类结果。 2.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法，其特征在于，所述步骤一中，采用Vi sualObject Classes Challenge 2012(VOC2 012)数据集，训练图片有8256张，测试图片有14 49张，可见类有15类，未见类有5类。 3.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法，其特征在于，所述步骤二中，背景提取模块采用MaskFormer模型，该模型主要用于有监督的语义分割任务，输入图片后可以输出图片的背景区域。 4.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法，其特征在于，所述步骤四中的训练图片背景的语义分割损失是通过二元交叉熵损失函数计算得到。 5.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法，其特征在于，所述步骤五中的初始背景特征是“background ”这个单词的词向量特征。 6.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法，其特征在于，所述步骤五中的背景特征更新模块由2层3 ×3卷积层和ReLU激活层组成，最后通过全局平局池化得到背景特征，然后拼接初始背景特征后，经过1层全连接层和ReLU激活层后得到步骤五中的适用于当前图片语义分割的背景特征。 7.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法，其特征在权　利　要　求　书 1/2 页 2 CN 115424014 A 2于，所述步骤六中的像素特征提取模块采用的骨架模型是deeplabv3模型。 8.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法，其特征在于，所述步骤六中通过deeplabv3输出的像素特征图，将像素特征图与可见类的语义特征相乘后得到相似度图，然后将相似度图输入到3层的3 ×3卷积层和ReLU层后输出一个语义注意力图。 9.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法，其特征在于，所述步骤七中将语义注意力图作用在语义特征上的具体操作为，先在每个像素点上复制对可见类数目的语义特征得到语义特征图，然后将步骤六中得到的语义注意力图和复制得到的语义特征图相乘得到利用语义注意力之后的语义注意力语义特征图。 10.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法，其特征在于，所述步骤八中通过余弦相似度计算特征向量和语义特征向量的相似度，所述步骤八中的语义分割损失通过二元交叉熵损失函数计算得到。权　利　要　求　书 2/2 页 3 CN 115424014 A 3

专利 一种基于语义注意力机制的零样本语义分割方法

专利一种基于语义注意力机制的零样本语义分割方法