文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211157420.1 (22)申请日 2022.09.22 (71)申请人 太保科技有限公司 地址 200010 上海市黄浦区中山 南路1号1 1 层(名义楼层)1 1V6室 (72)发明人 高超 (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 张志梅 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/35(2019.01) G06F 16/583(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 30/19(2022.01) G06V 30/413(2022.01) (54)发明名称 一种文档影 像分类方法和装置 (57)摘要 本申请提供了一种文档影像分类方法和装 置, 在该方法中, 首先, 根据文档影像中的文本和 所述文本对应的空间位置索引得到文本特征序 列和文本布局特征序列; 其次, 根据所述文档影 像中的图像和所述图像对应的空间位置索引得 到图像特征序列和图像布局特征序列; 然后, 将 所述文本布局特征序列与文本特征序列、 所述图 像布局特征序列与图像特征序列进行特征融合 后, 得到全局特征序列; 最后, 根据所述全局特征 序列对所述文档影像进行分类。 该方法不仅利用 文本信息和图像信息, 还利用文档影像的版面布 局信息进行分类, 克服了 现有技术中对版面布局 不同的文档影像类别难以区分的问题, 改善了文 档影像类别的分类效果, 提高了文档影像分类的 准确性。 权利要求书2页 说明书7页 附图4页 CN 115544200 A 2022.12.30 CN 115544200 A 1.一种文档影 像分类方法, 其特 征在于, 所述方法包括: 根据文档影像 中的文本得到文本特征序列, 将所述文本对应的空间位置索引映射为多 个特征向量, 得到文本布局特 征序列; 将所述文本布局特 征序列与文本特 征序列相结合, 得到第一特 征序列; 根据所述文档影像中的图像得到图像特征序列, 将所述图像对应的空间位置索引映射 为多个特 征向量, 得到图像布局特 征序列; 将所述图像布局特 征序列与图像特 征序列相结合, 得到第二特 征序列; 对所述第一特 征序列和所述第二特 征序列进行处 理, 得到全局特 征序列; 根据所述全局特 征序列对所述文档影 像进行分类。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述第 一特征序列和所述第 二特征 序列进行处 理, 得到全局特 征序列, 包括: 构建一个标准 化的特征向量作为分类标记特 征向量; 将所述分类标记特征向量、 所述第一特征序列和所述第二特征序列进行拼接, 得到局 部特征序列; 将所述局部特征序列输入到用于特征融合的神经网络模型进行处理, 得到全局特征序 列。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述全局特征序列对所述文档影 像进行分类, 包括: 选取所述全局特征序列中的分类标记特征向量, 所述分类标记特征向量经所述用于特 征融合的神经网络模型处 理后融合了分类所需的相关信息; 根据所述分类标记特 征向量对所述文档影 像进行分类。 4.根据权利要求2所述的方法, 其特征在于, 将所述局部特征序列输入到用于特征融合 的神经网络模型进行处 理, 得到全局特 征序列, 包括: 将所述局部特 征序列输入Transformer神经网络模型处 理; 通过Transformer神经网络模型将第一特征序列中的信息和第二特征序列中的信息进 行融合; 通过Transformer神经网络模型将文档影像分类所需的相关信息融合到分类标记特征 向量; 通过Transformer神经网络模型 得到所述全局特 征序列并输出。 5.根据权利要求1所述的方法, 其特征在于, 所述根据文档影像中的文本得到文本特征 序列, 包括: 识别文档影 像中的文字; 将所述文本分成多个分词, 得到预设长度的文本序列; 将所述文本序列的分词映射 为多个特 征向量, 得到文本特 征序列; 所述将所述文本对应的空间位置索引映射为多个特征向量, 得到文本布局特征序列, 包括: 将所述分词的空间位置索引映射 为多个特 征向量, 得到文本布局特 征序列。 6.根据权利要求5所述的方法, 其特 征在于, 所述将所述文本分成多个分词, 包括: 将所述文本进行截断;权 利 要 求 书 1/2 页 2 CN 115544200 A 2对相应的截断文本进行填充, 形成多个分词。 7.根据权利要求1所述的方法, 其特征在于, 所述根据所述文档影像中的图像得到图像 特征序列, 包括: 将所述文档影 像的图像分割为多个图块; 将所述图块的信息映射 为多个特 征向量, 得到图像特 征序列; 所述将所述图像对应的空间位置索引映射为多个特征向量, 得到 图像布局特征序列, 包括: 将所述图块对应的空间位置索引映射 为多个特 征向量, 得到图像布局特 征序列。 8.根据权利要求1所述的方法, 其特征在于, 所述将所述文本布局特征序列与文本特征 序列相结合, 包括: 将所述文本布局特征序列与文本特征序列以物理拼接的方式相结合, 其中所述文本布 局特征序列与文本特 征序列中的特 征向量维度相等; 所述将所述图像布局特 征序列与图像特 征序列相结合, 包括: 将所述图像布局特征序列与图像特征序列以物理拼接的方式相结合, 其中, 所述图像 布局特征序列与图像特 征序列中的特 征向量的维度相等。 9.根据权利要求1 ‑8任一项所述的方法, 其特征在于, 所述根据 所述全局特征序列对所 述文档影 像进行分类, 包括: 将所述全局特 征序列输入Softmax分类 器; Softmax分类 器根据全局特 征序列对所述文档影 像进行分类。 10.一种文档影 像分类装置, 其特 征在于, 所述装置包括: 文本信息获取模块, 用于将根据文档影像中的文本和所述文本对应的空间位置索引映 射为多个特征向量, 获取得到文本特征序列和文本布局特征序列, 将所述文本特征序列和 文本布局特 征序列相结合, 得到第一特 征序列; 图像信息获取模块, 用于将根据文档影像中的图像和所述图像对应的空间位置索引映 射为多个特征向量, 获取得到图像特征序列和图像布局特征序列, 将所述图像特征序列和 所述图像布局特 征序列相结合, 得到第二特 征序列; 全局特征序列获取模块, 用于对第一特征序列和第二特征序列进行处理, 得到全局特 征序列; 分类模块, 用于根据全局特 征序列, 对所述文档影 像进行分类。权 利 要 求 书 2/2 页 3 CN 115544200 A 3
专利 一种文档影像分类方法和装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 02:12:24
上传分享
举报
下载
原文档
(576.5 KB)
分享
友情链接
人工智能大模型体验报告2.0.pdf
DB3309-T 93-2022 地理标志产品 嵊泗贻贝 舟山市.pdf
GB-T 25063-2010 信息安全技术 服务器安全测评要求.pdf
中国信通院郭雪 交互式应用程序安全测试工具能力要求 标准解读 2021.pdf
GB-T 42449-2023 系统与软件工程 功能规模测量 IFPUG方法.pdf
GB-T 35274-2023 信息安全技术 大数据服务安全能力要求.pdf
GB-T 29362-2023 法庭科学 电子数据搜索检验规程.pdf
长亭科技 云图攻击面管理-产品白皮书-v1.1.pdf
GB-T 42875-2023 城市公共设施 城市家具 分类.pdf
2023-01-09 汽车信息安全法律法规及标准全景图V3.0.pdf
GB-T 34766-2017 矿物源总腐殖酸含量的测定.pdf
GB-T 31497-2024 信息技术 安全技术 信息安全管理 监视、测量、分析和评价.pdf
GM-T 0035.2-2014 射频识别系统密码应用技术要求 第2部分:电子标签芯片密码应用技术要求.pdf
GB/T 39188-2020 电动门窗通用技术要求.pdf
T-DZJN 80—2022 数据中心用锂离子电池设备产品技术标准.pdf
GB-T 35273-2020 信息安全技术 个人信息安全规范.pdf
GB-T 12230-2023 通用阀门 不锈钢铸件技术条件.pdf
CCSP Exam Guide AIO 第2版 英文版.pdf
GB-T 38395-2019 煤焦油 硫和氮含量的测定.pdf
YD-T 2669-2013 第三方安全服务能力评定准则.pdf
1
/
3
14
评价文档
赞助2元 点击下载(576.5 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。