专利古籍文本信息化处理方法、系统、电子设备及存储介质 -在线下载 -AI解读-standardlibrary.site

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211341307.9 (22)申请日 2022.10.31 (71)申请人天津恒达文博科技股份有限公司地址 300384 天津市滨海新区华苑产业区榕苑路15号1-B-701、 702、 703、 704、 705、 706 申请人西安文数保科技有限公司　河南文数保智能科技研究院有限公司 (72)发明人李世杰　马晋　金沛然　闫升　曹承瑞　韩国民　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师鄢功军(51)Int.Cl. G06V 30/414(2022.01) G06V 30/148(2022.01) G06V 30/19(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) (54)发明名称古籍文本信息化处理方法、系统、电子设备及存储介质 (57)摘要本发明公开了一种古籍文本信息化处理方法、系统、电子设备及存储介质，该方法包括：利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理，得到预标注结果；对预标注结果进行专家校验，得到人工标注结果；利用深度神经网络对古籍文本信息化模型进行训练，得到经过训练的古籍文本信息化模型；将古籍文本图像验证样本输入到经过训练的古籍文本信息化模型中，对经过训练的古籍文本信息化模型进行测试，得到古籍文本处理结果；重复进行预标注操作、人工标注操作、模型训练操作以及模型测试操作，得到训练完成的古籍文本信息化模型；利用训练完成的古籍文本信息化模型对待处理的古籍文本图像进行信息化处理，得到信息化处理结果。权利要求书3页说明书14页附图20页 CN 115410216 A 2022.11.29 CN 115410216 A 1.一种古籍文本信息化处理方法，其特征在于，包括：利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理，得到预标注结果，其中，所述古籍文本信息化模型包括检测子模块、过滤子模块、识别子模块以及版面分析子模块；根据预设校验规则，对所述预标注结果进行专家校验并将错误的预标注结果重新进行人工标注，得到人工标注结果；根据所述人工标注结果，利用深度神经网络对所述古籍文本信息化模型进行训练，得到经过训练的古籍文本信息化模型；将古籍文本图像验证样本输入到所述经过训练的古籍文本信息化模型中，并根据预设测试规则，对所述经过训练的古籍文本信息化模型进行测试，得到经过测试的古籍文本信息化模型输出的古籍文本处理结果，将所述古籍文本处理结果进行筛选后作为下一轮次的信息化处理过程的训练样本的预标注结果；根据预设迭代条件，重复进行预标注操作、人工标注操作、模型训练操作以及模型测试操作，得到训练完成的古籍文本信息化模型；利用所述训练完成的古籍文本信息化模型对待处理的古籍文本图像进行信息化处理，得到信息化处理结果，其中，所述信息化处理结果包括文本检测框、文本检测框过滤结果、文字识别结果以及版面分析结果；根据用户检索请求和所述信息化处理结果，利用所述训练完成的古籍文本信息化模型完成定制化的精确检索和/或模糊检索请求。 2.根据权利要求1所述的方法，其特征在于，所述检测子模块包括具有通道注意力机制的单阶段目标检测深度神经网络；其中，所述过滤子模块包括具有文本置信度预测功能的像素级语义分割网络；其中，所述识别子模块包括预处理单元、具有由深度残差网络组成的特征提取单元和由多个损失分支组成的分类单元；其中，所述分类单元包括以交叉熵为损失函数的分类层和以三元组损失为损失函数的特征嵌入层；其中，所述版面分析子模块包括用于文本关系回归的图神经网络和/或聚类单元，其中，所述聚类单元通过聚类方法用于文本行逐层框定。 3.根据权利要求1所述的方法，其特征在于，所述利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理，得到预标注结果包括：利用所述检测子模块处理所述古籍文本图像训练样本，得到文本检测框，其中，所述文本检测框用于古籍文本图像的文本定位；利用过滤子模块对所述古籍文本图像训练样本进行像素级回归，得到文本区域置信度图，并利用所述文本区域置信度图对所述文本检测框进行文本置信度计算，根据预设过滤阈值，对计算结果进行过滤，得到文件检测框过滤结果；利用所述识别子模块对所述文本检测框过滤结果进行处理，得到古籍文本图像块集合，并利用所述识别子模块对所述古籍文本图像块集合进行文字识别，得到文字识别结果；根据所述文本检测框过滤结果，利用所述版面分析子模块处理所述古籍文本图像训练样本，得到版面分析结果，其中，所述版面分析结果用于根据文字位置分布来确定文字之间权　利　要　求　书 1/3 页 2 CN 115410216 A 2的顺序和行列关系。 4.根据权利要求1所述的方法，其特征在于，所述根据预设校验规则，对所述预标注结果进行专家校验并将错误的预标注结果重新进行人工标注，得到人工标注结果包括：通过专家对所述预标注结果进行校验，得到校验结果，其中，所述校验结果包括文本检测框校验结果和文字识别校验结果；在所述文本检测框校验结果是未通过的情况下，通过所述专家对所述预标注结果进行删除文本检测框操作和添加文本检测框操作；在文字识别校验结果是未通过的情况下，通过所述专家根据所述文字识别结果的文字置信度进行排序，并从前N个所述文字识别结果进行筛选或直接对所述文字识别结果进行更改，其中， N 为正整数。 5.根据权利要求1所述的方法，其特征在于，根据所述人工标注结果，利用深度神经网络对所述古籍文本信息化模型进行训练，得到经过训练的古籍文本信息化模型包括：利用所述检测子模块处理所述古籍文本训练样本，包括：通过目标检测算法对所述人工标注结果进行检测，获得初始文本检测框预测结果，将所述文本检测框预测结果与所述人工标注结果进行比对，得到第一损失值，并通过梯度回传对所述检测子模块的参数进行训练；利用所述过滤子模块对所述文本检测框预测结果进行过滤，并将过滤结果与所述人工标注结果进行比对，得到第二损失值，并通过梯度回传对过滤子模块的参数进行训练；利用所述识别子模块对所述人工标注结果进行特征提取和文字分类，并将所述人工标注结果、特征提取结果和文字分类结果输入到损失函数中，得到第三损失值，并通过梯度回传对所述识别子模块的参数进行训练。 6.根据权利要求1所述的方法，其特征在于，还包括：根据用户图像分割需求和所述信息化处理结果，利用训练完成的古籍文本信息化模型对所述待处理的古籍文本图像进行像素级分割，得到定制化分割结果。 7.根据权利要求6所述的方法，其特征在于，根据用户图像分割需求和所述信息化处理结果，利用训练完成的古籍文本信息化模型对所述待处理的古籍文本图像进行像素级分割，得到定制化分割结果包括：根据所述用户图像分割需求和所述信息化处理结果，利用所述训练完成的古籍文本信息化模型对所述信息化处理结果中的文本检测框过滤结果进行预处理，得到古籍文本图像块，对所述古籍文本图像块进行最大类间方差局部二值化，并对二值化结果进行处理，得到定制化分割结果。 8.一种古籍文本信息化处理系统，其特征在于，包括：预标注模块，用于利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理，得到预标注结果，其中，所述古籍文本信息化模型包括检测子模块、过滤子模块、识别子模块以及版面分析子模块；标注模块，用于根据预设校验规则，对所述预标注结果进行专家校验并将错误的预标注结果重新进行人工标注，得到人工标注结果；训练模块，用于根据所述人工标注结果，利用深度神经网络对所述古籍文本信息化模型进行训练，得到经过训练的古籍文本信息化模型；权　利　要　求　书 2/3 页 3 CN 115410216 A 3

专利 古籍文本信息化处理方法、系统、电子设备及存储介质

专利古籍文本信息化处理方法、系统、电子设备及存储介质