(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210034363.1
(22)申请日 2022.01.12
(71)申请人 北京百度网讯科技有限公司
地址 100089 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 张晓强 钦夏孟 章成全 姚锟
(74)专利代理 机构 北京乐知新创知识产权代理
事务所(普通 合伙) 11734
专利代理师 王曌寅
(51)Int.Cl.
G06V 30/14(2022.01)
G06V 30/18(2022.01)
G06V 30/19(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 40/30(2020.01)
(54)发明名称
文本识别方法、 文本识别网络的训练方法及
装置
(57)摘要
本公开提供了文本识别方法、 文本识别网络
的训练方法及装置, 涉及图像处理技术领域, 尤
其涉及基于人工智能的文本识别技术领域。 具体
实现方案为: 确定待识别图像对应的编码后的序
列特征; 基于所述编码后的序列特征和文本实例
对应的字符特征, 确定解码后的序列 向量; 基于
所述解码后的序列向量, 确定所述待识别图像中
包括的文本; 其中, 所述文本实例包括预设的至
少一个字符; 所述字符包括字母、 数字、 符号、 文
字中至少一种。
权利要求书4页 说明书11页 附图4页
CN 114495102 A
2022.05.13
CN 114495102 A
1.一种文本识别方法, 包括:
确定待识别图像对应的编码后的序列特 征;
基于所述编码后的序列特 征和文本实例对应的字符特 征, 确定解码后的序列向量;
基于所述 解码后的序列向量, 确定所述待识别图像中包括的文本;
其中, 所述文本实例包括预设的至少一个字符; 所述字符包括字母、 数字、 符号、 文字 中
至少一种。
2.根据权利要求1所述的方法, 其中, 所述确定待识别图像对应的编码后的序列特征包
括:
将待识别图像对应的图像矩阵转换为的一维向量;
确定所述 一维向量对应的特 征为所述待识别图像的序列特 征;
对所述序列特 征进行编码, 确定所述待识别图像对应的编码后的序列特 征。
3.根据权利要求1所述的方法, 其中, 所述确定解码后的序列向量之前, 所述方法还包
括:
获取所述文本实例对应的嵌入值, 所述嵌入值 为所述文本实例对应的字符特 征;
其中, 不同的文本实例对应的嵌入值 不同。
4.根据权利要求1所述的方法, 其中, 所述基于所述解码后的序列向量, 确定所述待识
别图像中包括的文本, 包括:
将所述解码后的序列向量作为前馈子网络的输入, 根据所述前馈子网络的输出, 确定
所述待识别图像包括的文本 。
5.根据权利要求1所述的方法, 其中, 所述基于所述解码后的序列向量, 确定所述待识
别图像中包括的文本之后, 所述方法还 包括:
将所述解码后的序列向量与所述编码后的序列特 征对应的向量相乘, 得到乘积结果;
基于所述乘积结果, 确定所述文本在所述编码后的序列特 征中的位置信息;
基于所述文本在所述编码后的序列 特征中的位置信 息, 确定所述文本在所述待识别图
像的位置信息;
基于所述文本在所述待识别图像的位置信 息和所述待识别图像中包括的文本, 按照所
述文本在所述待识别图像中的顺序, 输出 所述待识别图像中包括的文本 。
6.一种文本识别网络的训练方法, 其中, 文本识别网络包括编码子网络、 译码子网络和
输出子网络, 所述方法包括:
基于所述编码子网络确定训练样本集中样本图像对应的编码后的序列样本特 征;
以所述编码后的序列样本特征和文本实例样本对应的字符样本特征作为所述译码子
网络的跨层注意力层的输入, 将所述 跨层注意力层的输出确定为 解码后的样本序列向量;
将所述解码后的样本序列向量作为所述输出子网络的输入, 根据 所述输出子网络的输
出, 确定所述样本图像中包括的预测文本;
匹配所述样本图像包括的预测文本和所述样本图像包括的标注文本, 基于匹配结果调
整所述文本识别网络的参数;
其中, 所述文本实例包括预设的至少一个字符; 所述字符包括字母、 数字、 符号、 文字 中
至少一种。
7.根据权利要求6所述的方法, 其中, 所述文本识别网络还包括基础子网络; 所述基于权 利 要 求 书 1/4 页
2
CN 114495102 A
2所述编码子网络确定训练样本集中样本图像对应的编码后的序列样本特 征, 包括:
所述基础子网络将所述样本图像对应的图像矩阵转换为表征所述样本图像的一维向
量;
所述样本图像的一维向量对应的特 征为所述样本图像的序列样本特 征;
所述编码子网络对所述序列样本特征进行编码, 确定训练样本集中样本图像对应的编
码后的序列样本特 征。
8.根据权利要求6所述的方法, 其中, 所述确定解码后的样本序列向量之前, 所述方法
还包括:
将所述文本实例 样本输入至所述译码子网络的自注意力层, 基于所述自注意力层的输
出获取所述文本实例样本对应的嵌入值, 所述嵌入值为所述文本实例样本对应的字符样本
特征;
其中, 不同的文本实例样本对应的嵌入值 不同。
9.根据权利要求6所述的方法, 其中, 将所述解码后的样本序列向量作为所述输出子网
络的输入, 根据所述输出子网络的输出, 确定所述样本图像中包括的预测文本, 包括:
将所述解码后的样本序列向量作为所述输出子网络包括的前馈子网络的输入, 获取所
述样本图像对应的至少一个预测类型;
其中, 所述样本图像对应的至少一个预测类型包括所述样本图像中包括的文本所对应
的类型。
10.根据权利要求6所述的方法, 其中, 匹配所述样本 图像包括的预测文本和所述样本
图像包括的标注文本, 基于匹配结果调整所述文本识别网络的参数, 包括:
若所述预测文本和所述标注文本相同, 则确定不调整所述文本识别网络的参数;
若所述预测文本和所述标注文本不同, 则基于所述样本图像的预测文本和所述样本图
像的标注文本之间的差异, 调整所述文本识别网络的参数。
11.一种文本识别装置, 包括:
编码单元, 用于确定待识别图像对应的编码后的序列特 征;
译码单元, 用于基于所述编码后的序列特征和文本实例对应的字符特征, 确定解码后
的序列向量;
输出单元, 用于基于所述 解码后的序列向量, 确定所述待识别图像中包括的文本;
其中, 所述文本实例包括预设的至少一个字符; 所述字符包括字母、 数字、 符号、 文字 中
至少一种。
12.根据权利要求1 1所述的装置, 其中, 所述编码单 元具体用于:
将待识别图像对应的图像矩阵转换为的一维向量;
确定所述 一维向量对应的特 征为所述待识别图像的序列特 征;
对所述序列特 征进行编码, 确定所述待识别图像对应的编码后的序列特 征。
13.根据权利要求1 1所述的装置, 其中, 所述译码单 元还用于:
在确定解码后的序列向量之前, 获取所述文本实例对应的嵌入值, 所述嵌入值为所述
文本实例对应的字符特 征;
其中, 不同的文本实例对应的嵌入值 不同。
14.根据权利要求1 1所述的装置, 其中, 所述输出 单元具体用于:权 利 要 求 书 2/4 页
3
CN 114495102 A
3
专利 文本识别方法、文本识别网络的训练方法及装置
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:56上传分享