文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211290027.X (22)申请日 2022.10.21 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 恩孟一 钦夏孟 谢群义 王鹏 姚锟 (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 江平 (51)Int.Cl. G06N 3/08(2006.01) G06V 10/82(2022.01) G06V 30/14(2022.01) (54)发明名称 深度学习网络的训练方法、 文本检测方法及 装置 (57)摘要 本公开提供了一种深度学习网络的训练方 法、 文本检测方法及装置、 设备、 介质和产品, 涉 及人工智能领域, 尤其涉及深度学习、 图像处理、 计算机视觉技术领域, 可应用于OCR、 大模型等场 景。 具体实现方案包括: 利用待训练的深度学习 网络, 确定基于样本文本图像中的至少一个目标 文本框的第一文本框特征和第二文本框特征; 根 据第一文本框特征、 第二文本框特征和预设文本 框特征序列, 确定对比损失函数值; 以及根据对 比损失函数值, 调整深度学习网络的模型参数, 得到经训练的目标深度学习网络 。 权利要求书4页 说明书12页 附图5页 CN 115358392 A 2022.11.18 CN 115358392 A 1.一种深度学习网络的训练方法, 所述深度学习网络用于文本检测, 所述方法包括: 利用待训练的深度学习网络, 确定基于样本文本图像中的至少一个目标文本框的第 一 文本框特征和第二文本 框特征; 根据所述第一文本框特征、 所述第二文本框特征和预设文本框特征序列, 确定对比损 失函数值; 以及 根据所述对比损 失函数值, 调整所述深度学习 网络的模型参数, 得到经训练的目标深 度学习网络 。 2.根据权利要求1所述的方法, 其中, 所述利用待训练的深度学习 网络, 确定基于样本 文本图像中的至少一个目标文本 框的第一文本 框特征和第二文本 框特征, 包括: 对所述样本文本图像进行图像 扰动, 得到扰动 后的样本文本图像; 以及 将所述扰动后的样本文本图像作为所述深度 学习网络的输入数据, 以利用所述深度 学 习网络, 确定基于所述至少一个目标文本框的所述第一文本框特征和所述第二文本框特 征, 其中, 由所述第一文本 框特征和所述第二文本 框特征指示的文本 框位置特 征相异。 3.根据权利要求2所述的方法, 其中, 所述图像扰动包括图像随机裁剪, 所述对所述样 本文本图像进行图像 扰动, 得到扰动 后的样本文本图像, 包括: 对所述样本文本图像分别进行第 一随机裁剪和第 二随机裁剪, 得到包括所述至少一个 目标文本 框的所述扰动 后的样本文本图像, 以及 所述确定基于所述至少一个目标文本框的所述第一文本框特征和所述第二文本框特 征, 包括: 确定经第一随机裁剪后的样本文本图像的所述第一文本框特征和经第二随机裁剪后 的样本文本图像的所述第二文本 框特征。 4.根据权利要求3所述的方法, 其中, 所述确定经第 一随机裁剪后的样本文本图像的所 述第一文本 框特征和经第二随机 裁剪后的样本文本图像的所述第二文本 框特征, 包括: 确定所述经第一随机裁剪后的样本文本图像的第一样本特征图和所述经第二随机裁 剪后的样本文本图像的第二样本特 征图; 以及 确定所述第 一样本特征图中基于各所述目标文本框的第 一文本框子特征, 得到基于所 述第一文本 框子特征的所述第一文本 框特征, 并且 确定所述第 二样本特征图中基于各所述目标文本框的第 二文本框子特征, 得到基于所 述第二文本 框子特征的所述第二文本 框特征。 5.根据权利要求1所述的方法, 其中, 所述根据所述第一文本框特征、 所述第二文本框 特征和预设文本 框特征序列, 确定对比损失函数值, 包括: 确定所述第 一文本框特征和所述第 二文本框特征之间的第 一关系特征, 确定所述第 一 文本框特征和所述文本 框特征序列之间的第二关系特 征; 以及 根据所述第一关系特征和所述第 二关系特征, 确定所述对比损失函数值, 其中, 关系特 征指示对应文本框特征之 间的相似度, 所述对比损失函数值与由所述第一关系特征指示的 第一相似度呈正相关, 所述对比损失函数值与由所述第二关系特征指示的第二相似度呈负 相关。 6.根据权利要求1所述的方法, 还 包括:权 利 要 求 书 1/4 页 2 CN 115358392 A 2利用所述第一文本框特征更新所述文本框特征序列, 得到更新后的文本框特征序列; 以及 响应于所述对比损失函数值未满足预设 收敛条件, 利用所述更新后的文本框特征序列 进行针对所述深度学习网络的下一迭代训练。 7.根据权利要求1所述的方法, 还 包括: 利用预训练的文本检测模型, 确定所述样本文本 图像中的文本框信息, 得到基于所述 文本框信息的预设样本标签; 以及 根据由所述预设样本标签指示的多个候选文本框, 在所述多个候选文本框 中确定待检 测的所述至少一个目标文本 框。 8.根据权利要求1至7中任一项所述的方法, 还 包括: 将结构化文本图像作为所述目标深度 学习网络的输入数据, 得到基于所述结构化文本 图像的字段检测结果; 以及 根据所述字段检测结果和预设字段标签, 调整所述目标深度学习 网络的模型参数, 得 到经训练的场景文本检测模型。 9.一种文本检测方法, 包括: 获取待检测的目标文本图像; 将所述目标文本图像输入经训练的目标深度 学习网络, 得到基于所述目标文本图像的 文本检测结果, 其中, 所述目标深度学习网络是根据权利要求1至8中任一项所述的方法训练得到的。 10.一种深度学习网络的训练装置, 所述深度学习网络用于文本检测, 所述装置包括: 文本框特征确定模块, 用于利用待训练的深度学习 网络, 确定基于样本文本 图像中的 至少一个目标文本 框的第一文本 框特征和第二文本 框特征; 对比损失函数值确定模块, 用于根据所述第一文本框特征、 所述第二文本框特征和预 设文本框特征序列, 确定对比损失函数值; 以及 模型参数调整模块, 用于根据所述对比损 失函数值, 调整所述深度学习 网络的模型参 数, 得到经训练的目标深度学习网络 。 11.根据权利要求10所述的装置, 其中, 所述文本 框特征确定模块包括: 图像扰动子模块, 用于对所述样本文本 图像进行图像扰动, 得到扰动后的样本文本 图 像; 以及 文本框特征确定子模块, 用于将所述扰动后的样本文本图像作为所述深度学习网络的 输入数据, 以利用所述深度学习网络, 确定基于所述至少一个目标文本框的所述第一文本 框特征和所述第二文本 框特征, 其中, 由所述第一文本 框特征和所述第二文本 框特征指示的文本 框位置特 征相异。 12.根据权利要求11所述的装置, 其中, 所述图像扰动包括图像随机裁剪, 所述图像扰 动子模块包括: 随机裁剪单元, 用于对所述样本文本 图像分别进行第一随机裁剪和第二随机裁剪, 得 到包括所述至少一个目标文本 框的所述扰动 后的样本文本图像, 以及 所述文本 框特征确定子模块包括: 文本框特征确定单元, 用于确定经第 一随机裁剪后的样本文本图像的所述第 一文本框权 利 要 求 书 2/4 页 3 CN 115358392 A 3
专利 深度学习网络的训练方法、文本检测方法及装置
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:24:46
上传分享
举报
下载
原文档
(650.0 KB)
分享
友情链接
T-GDCMA 017—2023 信用园区评价规范.pdf
CH-T 3005-2021 低空数字航空摄影规范.pdf
YD-T 3751-2020 车联网信息服务数据安全技术要求.pdf
GB 22021-2008 国家大地测量基本技术规定.pdf
SN-T 5410.1-2022 铅矿及主要含铅的矿渣鉴别方法 第1部分:通则.pdf
GB 9706.271-2022 医用电气设备 第2-71部分:功能性近红外光谱(NIRS)设备的基本安全和基本性能专用要求.pdf
DB21-T 3722.1—2023 高标准农田建设指南 第1部分:项目初步设计报告编制 辽宁省.pdf
T-WLJC 116—2023 工业互联网数据采集装置.pdf
GB-T 34977-2017 信息安全技术 移动智能终端数据存储安全技术要求与测试评价方法.pdf
T-NIFA 21—2023 金融数据安全技术防护规范.pdf
GB-T 26834-2011 无损检测仪器 小焦点及微焦点X射线管有效焦点尺寸测量方法.pdf
GB-T 41580-2022 核与辐射应急响应人员的照射控制.pdf
DB52-T 1179-2017 磷矿开采磷石膏充填采矿技术规范 贵州省.pdf
GB-T 40724-2021 碳纤维及其复合材料术语.pdf
GB-T 41704-2022 锂离子电池正极材料检测方法 磁性异物含量和残余碱含量的测定.pdf
GB-T 31467-2023 电动汽车用锂离子动力电池包和系统电性能试验方法.pdf
GB-T 35499-2017 呋喃树脂耐蚀作业质量技术规范.pdf
YD-T 3763.2-2021 研发运营一体化(DevOps)能力成熟度模型 第2部分:敏捷开发管理.pdf
GB-T 17749-2008 白度的表示方法.pdf
GB-T 41475-2022 1:25 000~1:500 000土壤养分图用色与图例规范.pdf
1
/
22
评价文档
赞助2元 点击下载(650.0 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。