文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211341307.9 (22)申请日 2022.10.31 (71)申请人 天津恒达文博科技股份有限公司 地址 300384 天津市滨 海新区华苑产业区 榕苑路15号1-B-701、 702、 703、 704、 705、 706 申请人 西安文数保科技有限公司 河南文数保智能科技研究院有限公 司 (72)发明人 李世杰 马晋 金沛然 闫升 曹承瑞 韩国民 (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 鄢功军(51)Int.Cl. G06V 30/414(2022.01) G06V 30/148(2022.01) G06V 30/19(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) (54)发明名称 古籍文本信息化处理方法、 系统、 电子设备 及存储介质 (57)摘要 本发明公开了一种古籍文本信息化处理方 法、 系统、 电子设备及存储介质, 该方法包括: 利 用古籍文本信息化模型对古籍文本图像训练样 本进行预标注处理, 得到预标注结果; 对预标注 结果进行专家校验, 得到人工标注结果; 利用 深 度神经网络对 古籍文本信息化模 型进行训练, 得 到经过训练的古籍文本信息化模 型; 将古籍文本 图像验证样本输入到经过训练的古籍文本信息 化模型中, 对 经过训练的古籍文本信息化模型进 行测试, 得到古籍文本处理结果; 重复进行预标 注操作、 人工标注操作、 模型训练操作以及模型 测试操作, 得到训练完成的古籍文本信息化模 型; 利用训练完成的古籍文本信息化模型对待处 理的古籍文本图像进行信息化处理, 得到信息化 处理结果。 权利要求书3页 说明书14页 附图20页 CN 115410216 A 2022.11.29 CN 115410216 A 1.一种古 籍文本信息化处 理方法, 其特 征在于, 包括: 利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理, 得到预标注结 果, 其中, 所述古籍文本信息化模型包括检测子模块、 过滤子模块、 识别子模块以及版面分 析子模块; 根据预设校验规则, 对所述预标注结果进行专家校验 并将错误的预标注结果重新进行 人工标注, 得到人工标注结果; 根据所述人工标注结果, 利用深度神经网络对所述古籍文本信息化模型进行训练, 得 到经过训练的古 籍文本信息化模型; 将古籍文本图像验证样本输入到所述经过训练的古籍文本信 息化模型中, 并根据 预设 测试规则, 对所述经过训练的古籍文本信息化模型进行测试, 得到经过测试 的古籍文本信 息化模型输出的古籍文本处理结果, 将所述古籍文本处理结果进 行筛选后作为下一轮次的 信息化处 理过程的训练样本的预 标注结果; 根据预设迭代条件, 重复进行预标注操作、 人工标注操作、 模型训练操作以及模型测试 操作, 得到训练完成的古 籍文本信息化模型; 利用所述训练完成的古籍文本信 息化模型对待处理 的古籍文本图像进行信 息化处理, 得到信息化处理结果, 其中, 所述信息化处理结果包括文本检测框、 文本检测框过滤结果、 文字识别结果以及版面分析 结果; 根据用户检索请求和所述信 息化处理结果, 利用所述训练完成的古籍文本信 息化模型 完成定制化的精确检索和/或模糊检索请求。 2.根据权利要求1所述的方法, 其特征在于, 所述检测子模块包括具有通道注意力 机制 的单阶段目标检测深度神经网络; 其中, 所述过 滤子模块包括具有 文本置信度预测功能的像素级语义分割网络; 其中, 所述识别子模块包括预处理单元、 具有由深度残差网络组成的特征提取单元和 由多个损失分支组成的分类单 元; 其中, 所述分类单元包括以交叉熵为损失函数的分类层和以三元组损失为损失函数的 特征嵌入层; 其中, 所述版面分析子模块包括用于文本关系回归的图神经网络和/或聚类单元, 其 中, 所述聚类单 元通过聚类方法用于文本行 逐层框定。 3.根据权利要求1所述的方法, 其特征在于, 所述利用古籍文本信 息化模型对古籍文本 图像训练样本进行 预标注处理, 得到预 标注结果包括: 利用所述检测子模块处理所述古籍文本图像训练样本, 得到文本检测框, 其中, 所述文 本检测框用于古 籍文本图像的文本 定位; 利用过滤子模块对所述古籍文本图像训练样本进行像素级回归, 得到文本区域置信度 图, 并利用所述文本区域置信度图对所述文本检测框进行文本置信度计算, 根据预设过滤 阈值, 对计算结果进行 过滤, 得到文件检测框过 滤结果; 利用所述识别子模块对所述文本检测框过滤结果进行处理, 得到古籍文本图像块集 合, 并利用所述识别子模块对所述古 籍文本图像块 集合进行文字识别, 得到文字识别结果; 根据所述文本检测框过滤结果, 利用所述版面分析子模块处理所述古籍文本图像训练 样本, 得到版面分析结果, 其中, 所述版面分析结果用于根据文字位置 分布来确定文字之间权 利 要 求 书 1/3 页 2 CN 115410216 A 2的顺序和行列关系。 4.根据权利要求1所述的方法, 其特征在于, 所述根据预设校验规则, 对所述预标注结 果进行专 家校验并将错 误的预标注结果重新进行 人工标注, 得到人工标注结果包括: 通过专家对所述预标注结果进行校验, 得到校验结果, 其中, 所述校验结果包括文本检 测框校验结果和文字识别校验结果; 在所述文本检测框校验结果是未通过的情况下, 通过所述专家对所述预标注结果进行 删除文本检测框操作和添加文本检测框操作; 在文字识别校验结果是未通过的情况下, 通过所述专家根据所述文字识别结果的文字 置信度进行排序, 并从前N个所述文字识别结果进行筛选或直接对所述文字识别结果进行 更改, 其中, N 为正整数。 5.根据权利要求1所述的方法, 其特征在于, 根据所述人工标注结果, 利用深度神经网 络对所述古 籍文本信息化模型进行训练, 得到经 过训练的古 籍文本信息化模型包括: 利用所述检测子模块处理所述古籍文本训练样本, 包括: 通过目标检测算法对所述人 工标注结果进行检测, 获得初始文本检测框预测结果, 将所述文本检测框预测结果与所述 人工标注结果进行比对, 得到第一损失值, 并通过梯度回传对所述检测子模块的参数进行 训练; 利用所述过滤子模块对所述文本检测框预测结果进行过滤, 并将过滤结果与 所述人工 标注结果进行比对, 得到第二损失值, 并通过梯度回传对过 滤子模块的参数进行训练; 利用所述识别 子模块对所述人工标注结果进行特征提取和文字分类, 并将所述人工标 注结果、 特征提取结果和文字分类结果输入到损失函数中, 得到第三损失值, 并通过梯度回 传对所述识别子模块的参数进行训练。 6.根据权利要求1所述的方法, 其特征在于, 还包括: 根据用户图像分割需求和所述信 息化处理结果, 利用训练完成的古籍文本信息化模型对所述待处理的古籍文本图像进 行像 素级分割, 得到 定制化分割结果。 7.根据权利要求6所述的方法, 其特征在于, 根据用户图像分割需求和所述信 息化处理 结果, 利用训练完成的古籍文本信息化模型对所述待处理的古籍文本图像进行像素级分 割, 得到定制化分割结果包括: 根据所述用户图像分割需求和所述信 息化处理结果, 利用所述训练完成的古籍文本信 息化模型对所述信息化处理结果中的文本检测框过滤结果进 行预处理, 得到古籍文本图像 块, 对所述古籍文本图像块进 行最大类间方差局部二值化, 并对二值化结果进 行处理, 得到 定制化分割结果。 8.一种古 籍文本信息化处 理系统, 其特 征在于, 包括: 预标注模块, 用于利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处 理, 得到预标注结果, 其中, 所述古籍文本信息化模型包括检测子模块、 过滤子模块、 识别子 模块以及版面分析子模块; 标注模块, 用于根据预设校验规则, 对所述预标注结果进行专家校验并将错误的预标 注结果重新进行 人工标注, 得到人工标注结果; 训练模块, 用于根据所述人工标注结果, 利用深度神经网络对所述古籍文本信息化模 型进行训练, 得到经 过训练的古 籍文本信息化模型;权 利 要 求 书 2/3 页 3 CN 115410216 A 3
专利 古籍文本信息化处理方法、系统、电子设备及存储介质
文档预览
中文文档
38 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共38页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:24:44
上传分享
举报
下载
原文档
(3.0 MB)
分享
友情链接
GB-T 33131-2016 信息安全技术 基于IPSec的IP存储网络安全技术要求.pdf
T-ZZB 0786—2018 台式钻床用直接驱动电机.pdf
GB-T 37076-2018 信息安全技术 指纹识别系统技术要求.pdf
360 新一代XDR-面向未来的数字安全防御架构.pdf
YD-T 3834.1-2021 量子密钥分发(QKD)系统技术要求 第1部分:基于诱骗态BB84协议的QKD系统.pdf
GB-T 30428.7-2017 数字化城市管理信息系统 第7部分:监管信息采集.pdf
奇安信 实战攻防之蓝队视角下的防御体系构建.pdf
GB/T 25387.2-2021 风力发电机组 全功率变流器 第2部分:试验方法.pdf
GB-T 41997.3-2022 机械电气安全 基于视觉的电敏保护设备 第3部分:采用立体视觉保护器件特殊要求.pdf
GW0101-2014 国家电子政务外网 信息安全标准体系框架.pdf
GB-T 16433-2009 残疾人田径运动员医学和功能分级.pdf
GBT 9452-2023 热处理炉有效加热区测定方法.pdf
HJ 76—2017 固定污染源烟气(SO2、NOx、颗粒物)排放连续监测系统技术要求及检测方法.pdf
GB 31338-2014 工业硅单位产品能源消耗限额.pdf
专利 基于人工智能预测的信息安全预测方法及大数据安全系统.PDF
T-ZACA 010—2019 审核员服务行为规范.pdf
GB-T 42927-2023 金融行业开源软件测评规范.pdf
GB-T 15114-2023 铝合金压铸件.pdf
GB-T 23561.9-2009 煤和岩石物理力学性质测定方法 第9部分:煤和岩石三轴强度及变形参数测定方法.pdf
GB-T 32918.3-2016 信息安全技术 SM2椭圆曲线公钥密码算法 第3部分:密钥交换协议.pdf
1
/
38
评价文档
赞助2元 点击下载(3.0 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。