专利 一种基于增强特征金字塔网络的任意形状场景文本检测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210042376.3 (22)申请日 2022.01.14 (71)申请人重庆邮电大学地址 400065 重庆市南岸区崇文路2号 (72)发明人谭钦红　江一峰　黄俊　 (51)Int.Cl. G06V 30/414(2022.01) G06V 30/19(2022.01) G06K 9/62(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于增强特征金字塔网络的任意形状场景文本检测方法 (57)摘要本发明公开了一种基于增强特征金字塔网络的任意形状场景文本检测方法，该方法包括如下模块：特征提取模块，用于提取输入图像的特征；比率不变特征增强模块，用于语义信息的增强；重构空间分辨率模块，用于空间信息的增强；特征融合模块，用于将语义信息增强的特征和空间信息增强的特征进行融合，生成多个不同比例的分割结果；渐近扩展模块，作为后处理模块采用渐近扩展算法将特征融合模块生成的多个不同尺度的分割结果进行逐步扩展融合，得到最终的文本检测结果。本发明通过融合增强语义信息的特征和增强空间信息的特征，加深了文本检测模型对输入图像的理解，提高文本的检测精度；后处理模块采用渐近尺度扩展算法对不同尺度的分割图从小到大依次进行扩展，在有效预测场景文本真实形状的同时还能很好的区分开距离较近的文本实例，从而可以实现对任意形状场景文本的检测。权利要求书1页说明书3页附图1页 CN 114387610 A 2022.04.22 CN 114387610 A 1.一种基于增强特征金字塔网络的任意形状场景文本检测方法，具体包括如下模块：特征提取模块，用于提取输入图像的特征；比率不变特征增强模块，用于语义信息的增强；重构空间分辨率模块，用于空间信息的增强；特征融合模块，用于将语义信息增强的特征和空间信息增强的特征进行融合，生成多个不同比例的分割结果；渐近扩展模块，作为后处理模块采用渐近扩展算法对所述特征融合模块生成的多个不同尺度的分割结果进行逐步扩展融合，得到最终的文本检测结果。 2.根据权利要求1所述的基于增强特征金字塔网络的任意形状场景文本检测方法，其特征在于，所述特征提取模块使用Re sNet50作为主干网络提取输入图像的原始特征{C2,C3, C4,C5}。 3.根据权利要求1所述的基于增强特征金字塔网络的任意形状场景文本检测方法，其特征在于，所述比率不变特征增强模块使用3个并行分支处理所述特征提取模块获取的高层语义特征图C5，将3个并行分支的输出结果进行融合以增强高层语义信息。 4.根据权利要求1所述的基于增强特征金字塔网络的任意形状场景文本检测方法，其特征在于，所述重构空间分辨率模块使用1*1的卷积操作将所述特征提取模块获取的原始特征{C2,C3,C4,C5}的通道数均调整为256维， {C3,C4,C5}通过上采样操作将分辨率调整为C2 相同，形成新的特征{R2,R3,R4,R5}。 5.根据权利要求1所述的基于增强特征金字塔网络的任意形状场景文本检测方法，其特征在于，所述特征融合模块用于将所述重构空间分辨率的多层特征图与增强特征金字塔结构中对应层级上采样之后的特征进行融合，得到{P2,P3,P4,P5}的融合特征P并生成n个不同的分割结果S1,S2,…,Sn。 6.根据权利要求1所述的基于增强特征金字塔网络的任意形状场景文本检测方法，其特征在于，所述渐近扩展模块使用渐近尺度扩展算法对所述特征融合模块所述的n个分割结果S1,S2,…,Sn按从小到大依次进行扩展，得到最终的文本预测结果。权　利　要　求　书 1/1 页 2 CN 114387610 A 2一种基于增强特征金字塔网络的任意形状场景文本检测方法技术领域 [0001]本发明涉及图像处理领域，具体涉及一种基于增强特征金字塔网络的任意形状场景文本检测方法。背景技术 [0002]随着经济社会的高速发展以及智能终端的快速普及，人们感知外界事物的渠道也越来越多样化。图像作为一种传输信息的载体，逐渐成为人们日常生活中获取信息的重要渠道。不同于一般图像中的视觉元素，自然场景图像中的文本包含着丰富的语义信息，能够更好的帮助人们分析和理解这些自然场景图像所蕴含的更深层次的信息。因此场景文本检测也开始逐渐应用于人们的生产和生活中，如在智慧交通系统建设、办公自动化以及视觉辅助等领域发挥着巨大的作用。 [0003]自然场景下文本的出现具有很大的随机性和多样性，常规的水平或者竖直方向的文本，复杂一点的有斜向文本，更为复杂的弯曲型甚至不规则形状的文本。同时由于场景图像在获取过程中受光照条件、拍摄角度等客观因素的影响，通过机器视觉实现对自然场景下的文本检测依然是一项非常具有挑战性的任务。 [0004]早期的自然场景文本检测方法主要依赖人工设计的特征以及一些文本的先验信息，如纹理、颜色或笔画宽度等。这类场景文本检测方法大致可以分为两类：基于连通域分析的场景文本检测方法和基于滑动窗口的场景文本检测方法。连通域方法首先利用边缘提取等数字图像处理技术对输入图像进行预处理，获取文本候选区域，进而采用不同的连通域分析方法对该区域进行细化分工，实现字符和文本的连通的定位。基于滑动窗口的方法则采用人工特征对候选区域进行表示，并利用该特征训练分类器，对候选区域进行预测和验证。这两类文本检测方法在检测背景单一、形状规则的场景文本能表现出不错的检测效果，但是过度的依赖人工设计的特征，该方法不能有效的应对复杂多变的场景图像中文本的检测。 [0005]近年来，深度学习如深度卷积神经网络在计算机视觉领域的成功应用促进了自然场景文本检测的研究与发展，这一方法通常利用特定的数据集训练以深度卷积神经网络为基础的网络模型用于自动提取输入图像的基本特征，然后再通过一系列后处理算法得到最终的文本区域。与传统的场景文本检测算法相比，该方法有效的避免了人工设计特征的局限性。目前基于深度学习的场景文本检测方法主要基于分割的方法和基于回归的方法，其中基于分割的方法一般先将文本从图像中分割出来，然后进行阈值处理来得到文本区域的边界框。而基于回归的方法一般直接回归出文本区域的边界框，速度通常比基于分割的方法快，但是对长文本以及弯曲型等不规则形状场景文本检测的效果仍然难以令人满意，从而影响场景文本检测方法在实际生活中的应用。发明内容 [0006]针对基于深度学习的场景文本检测方法在长文本以及弯曲型等不规则形状场景说　明　书 1/3 页 3 CN 114387610 A 3

专利 一种基于增强特征金字塔网络的任意形状场景文本检测方法

专利一种基于增强特征金字塔网络的任意形状场景文本检测方法