(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210042376.3
(22)申请日 2022.01.14
(71)申请人 重庆邮电大 学
地址 400065 重庆市南岸区崇文路2号
(72)发明人 谭钦红 江一峰 黄俊
(51)Int.Cl.
G06V 30/414(2022.01)
G06V 30/19(2022.01)
G06K 9/62(2022.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于增强特征金字塔网络的任意形状
场景文本 检测方法
(57)摘要
本发明公开了一种基于增强特征金字塔网
络的任意形状场景文本检测方法, 该方法包括如
下模块: 特征提取模块, 用于提取输入 图像的特
征; 比率不变特征增强模块, 用于语义信息的增
强; 重构空间分辨率模块, 用于空间信息的增强;
特征融合模块, 用于将语义信息增强的特征和空
间信息增强的特征进行融合, 生成多个不同比例
的分割结果; 渐近扩展模块, 作为后处理模块采
用渐近扩展算法将特征融合模块生成的多个不
同尺度的分割结果进行逐步扩展融合, 得到最终
的文本检测结果。 本发明通过融合增强语义信息
的特征和增强空间信息的特征, 加深了文本检测
模型对输入图像的理解, 提高文本的检测精度;
后处理模块采用渐近尺度扩展算法对不同尺度
的分割图从小到大依次进行扩展, 在有效预测场
景文本真实形状的同时还能很好的区分开距离
较近的文本实例, 从而可以实现对任意形状场景文本的检测。
权利要求书1页 说明书3页 附图1页
CN 114387610 A
2022.04.22
CN 114387610 A
1.一种基于增强特 征金字塔网络的任意形状场景文本检测方法, 具体包括如下模块:
特征提取模块, 用于提取输入图像的特 征;
比率不变特征增强模块, 用于语义信息的增强;
重构空间分辨 率模块, 用于空间信息的增强;
特征融合模块, 用于将语义信息增强的特征和 空间信息增强的特征进行融合, 生成多
个不同比例的分割结果;
渐近扩展模块, 作为后处理模块采用渐近扩展算法对所述特征融合模块生成的多个不
同尺度的分割结果进行 逐步扩展融合, 得到最终的文本检测结果。
2.根据权利要求1所述的基于增强特征金字塔网络的任意形状场景文本检测方法, 其
特征在于, 所述特征提 取模块使用Re sNet50作为主干网络 提取输入图像的原始特征{C2,C3,
C4,C5}。
3.根据权利要求1所述的基于增强特征金字塔网络的任意形状场景文本检测方法, 其
特征在于, 所述比率不变特征增强模块使用3个并行分支处理所述特征提取模块获取 的高
层语义特 征图C5, 将3个并行分支的输出 结果进行融合以增强高层语义信息 。
4.根据权利要求1所述的基于增强特征金字塔网络的任意形状场景文本检测方法, 其
特征在于, 所述重构空间分辨率模块使用1*1的卷积操作将所述特征提取模块获取的原始
特征{C2,C3,C4,C5}的通道数均调整为256维, {C3,C4,C5}通过上采样操作将分辨率调整为C2
相同, 形成新的特 征{R2,R3,R4,R5}。
5.根据权利要求1所述的基于增强特征金字塔网络的任意形状场景文本检测方法, 其
特征在于, 所述特征融合模块用于将所述重构空间分辨率的多层特征图与增强特征金字塔
结构中对应层级上采样之后的特征进行融合, 得到{P2,P3,P4,P5}的融合特征P并生成n个不
同的分割结果S1,S2,…,Sn。
6.根据权利要求1所述的基于增强特征金字塔网络的任意形状场景文本检测方法, 其
特征在于, 所述渐近扩展模块使用渐近尺度扩展算法对所述特征融合模块所述的n个分割
结果S1,S2,…,Sn按从小到大依次进行扩展, 得到最终的文本预测结果。权 利 要 求 书 1/1 页
2
CN 114387610 A
2一种基于增强特征金字塔 网络的任意形状场景 文本检测方 法
技术领域
[0001]本发明涉及图像处理领域, 具体涉及一种基于增强特征金字塔网络的任意形状场
景文本检测方法。
背景技术
[0002]随着经济社会的高速发展以及智能终端的快速普及, 人们感知外界事物的渠道也
越来越多样化。 图像作为一种传输信息的载体, 逐渐成为人们日常生活中获取信息的重要
渠道。 不同于一般图像中的视觉元素, 自然场景图像中的文本包含着 丰富的语义信息, 能够
更好的帮助人们分析和理解这些自然场景图像所蕴含的更深层次的信息。 因此场景文本检
测也开始逐渐应用于人们的生产和 生活中, 如在智慧交通系统建设、 办公自动化以及视觉
辅助等领域发挥着巨大的作用。
[0003]自然场景下文本的出现具有很大的随机性和多样性, 常规的水平或者竖直方向的
文本, 复杂一点的有斜向文本, 更为复杂的弯曲型甚至不规则形状的文本。 同时由于场景图
像在获取过程中受光照条件、 拍摄角度等客观因素 的影响, 通过机器视觉实现对自然场景
下的文本检测依然是一项非常具有挑战性的任务。
[0004]早期的自然场景文本检测方法主要依赖人工设计的特征以及一些文本的先验信
息, 如纹理、 颜色或笔画宽度等。 这类场景文本检测方法大致可以分为两类: 基于连通域分
析的场景文本检测方法和基于滑动窗口的场景文本检测方法。 连通域方法首先利用边缘提
取等数字图像处理技术对输入图像进行预处理, 获取文本候选区域, 进而采用不同的连通
域分析方法对该区域进行细化分工, 实现字符和文本的连通的定位。 基于滑动窗口的方法
则采用人工特征对候选区域进行表示, 并利用该特征训练分类器, 对候选区域进行预测和
验证。 这两类文本检测方法在检测背景单一、 形状规则的场景文本能表现出不错的检测效
果, 但是过度的依赖人工设计的特征, 该方法不能有效的应对复杂多变的场景图像中文本
的检测。
[0005]近年来, 深度学习如深度卷积神经网络在计算机视觉领域的成功应用促进了自然
场景文本检测的研究与发展, 这一方法通常利用特定的数据集训练以深度卷积神经网络为
基础的网络模型用于自动提取输入图像的基本特征, 然后再通过一系列后处理算法得到最
终的文本区域。 与传统的场景文本检测 算法相比, 该方法有效的避免了人工设计特征 的局
限性。 目前基于深度学习的场景文本检测方法主要基于分割的方法和基于回归的方法, 其
中基于分割的方法一般先将文本从图像中分割出来, 然后进 行阈值处理来得到文本区域的
边界框。 而基于回归的方法一般直接回归出文本区域的边界框, 速度通常比基于分割的方
法快, 但是对长文本以及弯曲型等不规则形状场景文本检测的效果仍然难以令人满意, 从
而影响场景文本检测方法在实际生活中的应用。
发明内容
[0006]针对基于深度学习的场景文本检测方法在长文本以及弯曲型等不规则形状场景说 明 书 1/3 页
3
CN 114387610 A
3
专利 一种基于增强特征金字塔网络的任意形状场景文本检测方法
文档预览
中文文档
6 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:55上传分享