专利一种分层自注意力场景语义分割模型的构建方法 -在线下载 -AI解读-standardlibrary.site

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211265948.0 (22)申请日 2022.10.17 (71)申请人华中科技大学地址 430074 湖北省武汉市洪山区珞喻路 1037号 (72)发明人左峥嵘　方林涛　沈凡姝　王岳环　 (74)专利代理机构华中科技大学专利中心 42201 专利代理师尹丽媛 (51)Int.Cl. G06V 10/26(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/44(2022.01) G06V 10/77(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称一种分层自注意力场景语义分割模型的构建方法 (57)摘要本发明属于图像处理技术领域，具体涉及一种分层自注意力场景语义分割模型的构建方法，包括：将输入图像经过分层全自注意力编码器不同层的特征提取，依次输出不同层对应的特征图；其中，基于输入图像的掩码真值标签，通过掩码标签细节聚合，得到细节真值标签，采用细节真值标签和当前次迭代中第二层所输出的特征图，通过计算损失，对下一次迭代中分层全自注意力编码器中第二层的特征提取过程进行约束，以引导分层全自注意力编码器底层学习空间细节信息；将当前次迭代中不同层对应的特征图，输入全多层感知器解码器进行解码，得到预测的分割掩码，优化分层全自注意力编码器和全多层感知器解码器参数。本发明对目标尺寸变化差异适应性良好。权利要求书2页说明书11页附图3页 CN 115546485 A 2022.12.30 CN 115546485 A 1.一种分层自注意力场景语义分割模型的构建方法，其特征在于，包括：将输入图像通过重叠块嵌入切分成小块，经过分层全自注意力编码器不同层的特征提取，依次输出不同层对应的特征图；其中，基于所述输入图像的掩码真值标签，通过掩码标签细节聚合，得到细节真值标签，采用所述细节真值标签和当前次迭代中第二层所输出的特征图，通过计算损失，对下一次迭代中所述分层全自注意力编码器中第二层的特征提取过程进行约束，以引导分层全自注意力编码器底层学习空间细节信息；将当前次迭代中所述不同层对应的特征图，输入全多层感知器解码器进行解码，得到预测的分割掩码；基于所述预测的分割掩码和所述掩码真值标签，计算分割损失，优化所述分层全自注意力编码器和所述全多层感知器解码器参数，重复上述步骤，直至达到迭代终止条件，完成场景语义分割模型的构建。 2.根据权利要求1所述的构建方法，其特征在于，所述每层自注意力编码器包括多头自注意力模块和Mix ‑FFN，其中， Mix ‑FFN是由一个前馈网络混合使用3 ×3卷积以及多层感知器MLP组合构成，其输出表示为： xout＝MLP(GELU(Co nv3×3(FFN(xin))))+xin；式中， xin表示所述多头自注意力模块得到的多头自注意力特征， GELU表示高斯误差线性单元激活函数， Conv3×3表示3×3卷积， MLP表示所述多层感知器MLP结构， FFN表示所述前馈网络， xout表示所述Mix ‑FFN的输出，作为单个自注意力编码器的输出。 3.根据权利要求2所述的构建方法，其特征在于，所述多头自注意力模块在计算多头自注意力特征时，将每个头节点矩阵的反映图像分辨率的行数以缩减比例R进行缩减，以降低计算复杂度，缩减方式如下：其中， T是待缩减的矩阵，分别为Q、 K、 V矩阵，第一个式子表示将T变形成大小为的矩阵， linear(Cinput， Coutput)(·)表示将列数为Cinput的输入张量转换成列数为Coutput的输出张量的线性层，为维度为的新头节点矩阵。 4.根据权利要求1所述的构建方法，其特征在于，所述全多层感知器解码器由全MLP层构成。 5.根据权利要求1所述的构建方法，其特征在于，所述掩码标签细节聚合的实现方式为：采用固定拉普拉斯算子以及不同步长值，对所述输入图像的掩码真值标签进行卷积计算，提取各步长下所述掩码真值标签的第一细节边缘特征；分别对不同步长下的所述细节边缘特征进行向上采样操作，得到宽度和高度与所述输入图像相同的第二细节边缘特征；对不同步长对应的所述第二细节边缘特征进行级联，通过1 ×1大小的卷积对级联后的第二细节边缘特征进行融合，得到融合后的细节边缘特征；设置门限阈值实现二值分割，将所述融合后的细节边缘特征，转换为二值图像空间细节标签，作为所述细节真值标签。权　利　要　求　书 1/2 页 2 CN 115546485 A 26.根据权利要求5所述的构建方法，其特征在于，所述上采样操作采用线性插值函数完成。 7.根据权利要求1所述的构建方法，其特征在于，用于所述对下一次迭代中所述分层全自注意力编码器中第二层的特征提取过程进行约束的损失，通过交叉熵损失与Dice损失联合计算得到，表示为： Ldetail(pd， gd)＝Ldice(pd， gd)+Lbce(pd， gd)；其中， Ldetail(pd， gd)表示通过交叉熵损失与Dice损失联合计算得到的细节损失， pd∈RH×W表示所述分层全自注意力编码器中第二层所输出的特征， gd∈RH×W表示所述细节真值标签； Lbce为二分类交叉熵损失， Ldice 为Dice损失，即：其中， i表示像素编号， τ0表示拉普拉斯平滑项。 8.一种场景语义分割方法，其特征在于，采用如权利要求1至7任一项所述的一种分层自注意力场景语义分割模型的构建方法所构建的分层自注意力场景语义分割模型进行场景语义分割。 9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1至7任一项所述的一种分层自注意力场景语义分割模型的构建方法。权　利　要　求　书 2/2 页 3 CN 115546485 A 3

专利 一种分层自注意力场景语义分割模型的构建方法

专利一种分层自注意力场景语义分割模型的构建方法