专利 文本识别方法、文本识别网络的训练方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210034363.1 (22)申请日 2022.01.12 (71)申请人北京百度网讯科技有限公司地址 100089 北京市海淀区上地十街10号百度大厦2层 (72)发明人张晓强　钦夏孟　章成全　姚锟　 (74)专利代理机构北京乐知新创知识产权代理事务所(普通合伙) 11734 专利代理师王曌寅 (51)Int.Cl. G06V 30/14(2022.01) G06V 30/18(2022.01) G06V 30/19(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/30(2020.01) (54)发明名称文本识别方法、文本识别网络的训练方法及装置 (57)摘要本公开提供了文本识别方法、文本识别网络的训练方法及装置，涉及图像处理技术领域，尤其涉及基于人工智能的文本识别技术领域。具体实现方案为：确定待识别图像对应的编码后的序列特征；基于所述编码后的序列特征和文本实例对应的字符特征，确定解码后的序列向量；基于所述解码后的序列向量，确定所述待识别图像中包括的文本；其中，所述文本实例包括预设的至少一个字符；所述字符包括字母、数字、符号、文字中至少一种。权利要求书4页说明书11页附图4页 CN 114495102 A 2022.05.13 CN 114495102 A 1.一种文本识别方法，包括：确定待识别图像对应的编码后的序列特征；基于所述编码后的序列特征和文本实例对应的字符特征，确定解码后的序列向量；基于所述解码后的序列向量，确定所述待识别图像中包括的文本；其中，所述文本实例包括预设的至少一个字符；所述字符包括字母、数字、符号、文字中至少一种。 2.根据权利要求1所述的方法，其中，所述确定待识别图像对应的编码后的序列特征包括：将待识别图像对应的图像矩阵转换为的一维向量；确定所述一维向量对应的特征为所述待识别图像的序列特征；对所述序列特征进行编码，确定所述待识别图像对应的编码后的序列特征。 3.根据权利要求1所述的方法，其中，所述确定解码后的序列向量之前，所述方法还包括：获取所述文本实例对应的嵌入值，所述嵌入值为所述文本实例对应的字符特征；其中，不同的文本实例对应的嵌入值不同。 4.根据权利要求1所述的方法，其中，所述基于所述解码后的序列向量，确定所述待识别图像中包括的文本，包括：将所述解码后的序列向量作为前馈子网络的输入，根据所述前馈子网络的输出，确定所述待识别图像包括的文本。 5.根据权利要求1所述的方法，其中，所述基于所述解码后的序列向量，确定所述待识别图像中包括的文本之后，所述方法还包括：将所述解码后的序列向量与所述编码后的序列特征对应的向量相乘，得到乘积结果；基于所述乘积结果，确定所述文本在所述编码后的序列特征中的位置信息；基于所述文本在所述编码后的序列特征中的位置信息，确定所述文本在所述待识别图像的位置信息；基于所述文本在所述待识别图像的位置信息和所述待识别图像中包括的文本，按照所述文本在所述待识别图像中的顺序，输出所述待识别图像中包括的文本。 6.一种文本识别网络的训练方法，其中，文本识别网络包括编码子网络、译码子网络和输出子网络，所述方法包括：基于所述编码子网络确定训练样本集中样本图像对应的编码后的序列样本特征；以所述编码后的序列样本特征和文本实例样本对应的字符样本特征作为所述译码子网络的跨层注意力层的输入，将所述跨层注意力层的输出确定为解码后的样本序列向量；将所述解码后的样本序列向量作为所述输出子网络的输入，根据所述输出子网络的输出，确定所述样本图像中包括的预测文本；匹配所述样本图像包括的预测文本和所述样本图像包括的标注文本，基于匹配结果调整所述文本识别网络的参数；其中，所述文本实例包括预设的至少一个字符；所述字符包括字母、数字、符号、文字中至少一种。 7.根据权利要求6所述的方法，其中，所述文本识别网络还包括基础子网络；所述基于权　利　要　求　书 1/4 页 2 CN 114495102 A 2所述编码子网络确定训练样本集中样本图像对应的编码后的序列样本特征，包括：所述基础子网络将所述样本图像对应的图像矩阵转换为表征所述样本图像的一维向量；所述样本图像的一维向量对应的特征为所述样本图像的序列样本特征；所述编码子网络对所述序列样本特征进行编码，确定训练样本集中样本图像对应的编码后的序列样本特征。 8.根据权利要求6所述的方法，其中，所述确定解码后的样本序列向量之前，所述方法还包括：将所述文本实例样本输入至所述译码子网络的自注意力层，基于所述自注意力层的输出获取所述文本实例样本对应的嵌入值，所述嵌入值为所述文本实例样本对应的字符样本特征；其中，不同的文本实例样本对应的嵌入值不同。 9.根据权利要求6所述的方法，其中，将所述解码后的样本序列向量作为所述输出子网络的输入，根据所述输出子网络的输出，确定所述样本图像中包括的预测文本，包括：将所述解码后的样本序列向量作为所述输出子网络包括的前馈子网络的输入，获取所述样本图像对应的至少一个预测类型；其中，所述样本图像对应的至少一个预测类型包括所述样本图像中包括的文本所对应的类型。 10.根据权利要求6所述的方法，其中，匹配所述样本图像包括的预测文本和所述样本图像包括的标注文本，基于匹配结果调整所述文本识别网络的参数，包括：若所述预测文本和所述标注文本相同，则确定不调整所述文本识别网络的参数；若所述预测文本和所述标注文本不同，则基于所述样本图像的预测文本和所述样本图像的标注文本之间的差异，调整所述文本识别网络的参数。 11.一种文本识别装置，包括：编码单元，用于确定待识别图像对应的编码后的序列特征；译码单元，用于基于所述编码后的序列特征和文本实例对应的字符特征，确定解码后的序列向量；输出单元，用于基于所述解码后的序列向量，确定所述待识别图像中包括的文本；其中，所述文本实例包括预设的至少一个字符；所述字符包括字母、数字、符号、文字中至少一种。 12.根据权利要求1 1所述的装置，其中，所述编码单元具体用于：将待识别图像对应的图像矩阵转换为的一维向量；确定所述一维向量对应的特征为所述待识别图像的序列特征；对所述序列特征进行编码，确定所述待识别图像对应的编码后的序列特征。 13.根据权利要求1 1所述的装置，其中，所述译码单元还用于：在确定解码后的序列向量之前，获取所述文本实例对应的嵌入值，所述嵌入值为所述文本实例对应的字符特征；其中，不同的文本实例对应的嵌入值不同。 14.根据权利要求1 1所述的装置，其中，所述输出单元具体用于：权　利　要　求　书 2/4 页 3 CN 114495102 A 3

专利 文本识别方法、文本识别网络的训练方法及装置

专利文本识别方法、文本识别网络的训练方法及装置