专利深度学习网络的训练方法、文本检测方法及装置 -在线下载 -AI解读-standardlibrary.site

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211290027.X (22)申请日 2022.10.21 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人恩孟一　钦夏孟　谢群义　王鹏　姚锟　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师江平 (51)Int.Cl. G06N 3/08(2006.01) G06V 10/82(2022.01) G06V 30/14(2022.01) (54)发明名称深度学习网络的训练方法、文本检测方法及装置 (57)摘要本公开提供了一种深度学习网络的训练方法、文本检测方法及装置、设备、介质和产品，涉及人工智能领域，尤其涉及深度学习、图像处理、计算机视觉技术领域，可应用于OCR、大模型等场景。具体实现方案包括：利用待训练的深度学习网络，确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征；根据第一文本框特征、第二文本框特征和预设文本框特征序列，确定对比损失函数值；以及根据对比损失函数值，调整深度学习网络的模型参数，得到经训练的目标深度学习网络。权利要求书4页说明书12页附图5页 CN 115358392 A 2022.11.18 CN 115358392 A 1.一种深度学习网络的训练方法，所述深度学习网络用于文本检测，所述方法包括：利用待训练的深度学习网络，确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征；根据所述第一文本框特征、所述第二文本框特征和预设文本框特征序列，确定对比损失函数值；以及根据所述对比损失函数值，调整所述深度学习网络的模型参数，得到经训练的目标深度学习网络。 2.根据权利要求1所述的方法，其中，所述利用待训练的深度学习网络，确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征，包括：对所述样本文本图像进行图像扰动，得到扰动后的样本文本图像；以及将所述扰动后的样本文本图像作为所述深度学习网络的输入数据，以利用所述深度学习网络，确定基于所述至少一个目标文本框的所述第一文本框特征和所述第二文本框特征，其中，由所述第一文本框特征和所述第二文本框特征指示的文本框位置特征相异。 3.根据权利要求2所述的方法，其中，所述图像扰动包括图像随机裁剪，所述对所述样本文本图像进行图像扰动，得到扰动后的样本文本图像，包括：对所述样本文本图像分别进行第一随机裁剪和第二随机裁剪，得到包括所述至少一个目标文本框的所述扰动后的样本文本图像，以及所述确定基于所述至少一个目标文本框的所述第一文本框特征和所述第二文本框特征，包括：确定经第一随机裁剪后的样本文本图像的所述第一文本框特征和经第二随机裁剪后的样本文本图像的所述第二文本框特征。 4.根据权利要求3所述的方法，其中，所述确定经第一随机裁剪后的样本文本图像的所述第一文本框特征和经第二随机裁剪后的样本文本图像的所述第二文本框特征，包括：确定所述经第一随机裁剪后的样本文本图像的第一样本特征图和所述经第二随机裁剪后的样本文本图像的第二样本特征图；以及确定所述第一样本特征图中基于各所述目标文本框的第一文本框子特征，得到基于所述第一文本框子特征的所述第一文本框特征，并且确定所述第二样本特征图中基于各所述目标文本框的第二文本框子特征，得到基于所述第二文本框子特征的所述第二文本框特征。 5.根据权利要求1所述的方法，其中，所述根据所述第一文本框特征、所述第二文本框特征和预设文本框特征序列，确定对比损失函数值，包括：确定所述第一文本框特征和所述第二文本框特征之间的第一关系特征，确定所述第一文本框特征和所述文本框特征序列之间的第二关系特征；以及根据所述第一关系特征和所述第二关系特征，确定所述对比损失函数值，其中，关系特征指示对应文本框特征之间的相似度，所述对比损失函数值与由所述第一关系特征指示的第一相似度呈正相关，所述对比损失函数值与由所述第二关系特征指示的第二相似度呈负相关。 6.根据权利要求1所述的方法，还包括：权　利　要　求　书 1/4 页 2 CN 115358392 A 2利用所述第一文本框特征更新所述文本框特征序列，得到更新后的文本框特征序列；以及响应于所述对比损失函数值未满足预设收敛条件，利用所述更新后的文本框特征序列进行针对所述深度学习网络的下一迭代训练。 7.根据权利要求1所述的方法，还包括：利用预训练的文本检测模型，确定所述样本文本图像中的文本框信息，得到基于所述文本框信息的预设样本标签；以及根据由所述预设样本标签指示的多个候选文本框，在所述多个候选文本框中确定待检测的所述至少一个目标文本框。 8.根据权利要求1至7中任一项所述的方法，还包括：将结构化文本图像作为所述目标深度学习网络的输入数据，得到基于所述结构化文本图像的字段检测结果；以及根据所述字段检测结果和预设字段标签，调整所述目标深度学习网络的模型参数，得到经训练的场景文本检测模型。 9.一种文本检测方法，包括：获取待检测的目标文本图像；将所述目标文本图像输入经训练的目标深度学习网络，得到基于所述目标文本图像的文本检测结果，其中，所述目标深度学习网络是根据权利要求1至8中任一项所述的方法训练得到的。 10.一种深度学习网络的训练装置，所述深度学习网络用于文本检测，所述装置包括：文本框特征确定模块，用于利用待训练的深度学习网络，确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征；对比损失函数值确定模块，用于根据所述第一文本框特征、所述第二文本框特征和预设文本框特征序列，确定对比损失函数值；以及模型参数调整模块，用于根据所述对比损失函数值，调整所述深度学习网络的模型参数，得到经训练的目标深度学习网络。 11.根据权利要求10所述的装置，其中，所述文本框特征确定模块包括：图像扰动子模块，用于对所述样本文本图像进行图像扰动，得到扰动后的样本文本图像；以及文本框特征确定子模块，用于将所述扰动后的样本文本图像作为所述深度学习网络的输入数据，以利用所述深度学习网络，确定基于所述至少一个目标文本框的所述第一文本框特征和所述第二文本框特征，其中，由所述第一文本框特征和所述第二文本框特征指示的文本框位置特征相异。 12.根据权利要求11所述的装置，其中，所述图像扰动包括图像随机裁剪，所述图像扰动子模块包括：随机裁剪单元，用于对所述样本文本图像分别进行第一随机裁剪和第二随机裁剪，得到包括所述至少一个目标文本框的所述扰动后的样本文本图像，以及所述文本框特征确定子模块包括：文本框特征确定单元，用于确定经第一随机裁剪后的样本文本图像的所述第一文本框权　利　要　求　书 2/4 页 3 CN 115358392 A 3

专利 深度学习网络的训练方法、文本检测方法及装置

专利深度学习网络的训练方法、文本检测方法及装置