(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211157420.1 (22)申请日 2022.09.22 (71)申请人 太保科技有限公司 地址 200010 上海市黄浦区中山 南路1号1 1 层(名义楼层)1 1V6室 (72)发明人 高超  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 张志梅 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/35(2019.01) G06F 16/583(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 30/19(2022.01) G06V 30/413(2022.01) (54)发明名称 一种文档影 像分类方法和装置 (57)摘要 本申请提供了一种文档影像分类方法和装 置, 在该方法中, 首先, 根据文档影像中的文本和 所述文本对应的空间位置索引得到文本特征序 列和文本布局特征序列; 其次, 根据所述文档影 像中的图像和所述图像对应的空间位置索引得 到图像特征序列和图像布局特征序列; 然后, 将 所述文本布局特征序列与文本特征序列、 所述图 像布局特征序列与图像特征序列进行特征融合 后, 得到全局特征序列; 最后, 根据所述全局特征 序列对所述文档影像进行分类。 该方法不仅利用 文本信息和图像信息, 还利用文档影像的版面布 局信息进行分类, 克服了 现有技术中对版面布局 不同的文档影像类别难以区分的问题, 改善了文 档影像类别的分类效果, 提高了文档影像分类的 准确性。 权利要求书2页 说明书7页 附图4页 CN 115544200 A 2022.12.30 CN 115544200 A 1.一种文档影 像分类方法, 其特 征在于, 所述方法包括: 根据文档影像 中的文本得到文本特征序列, 将所述文本对应的空间位置索引映射为多 个特征向量, 得到文本布局特 征序列; 将所述文本布局特 征序列与文本特 征序列相结合, 得到第一特 征序列; 根据所述文档影像中的图像得到图像特征序列, 将所述图像对应的空间位置索引映射 为多个特 征向量, 得到图像布局特 征序列; 将所述图像布局特 征序列与图像特 征序列相结合, 得到第二特 征序列; 对所述第一特 征序列和所述第二特 征序列进行处 理, 得到全局特 征序列; 根据所述全局特 征序列对所述文档影 像进行分类。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述第 一特征序列和所述第 二特征 序列进行处 理, 得到全局特 征序列, 包括: 构建一个标准 化的特征向量作为分类标记特 征向量; 将所述分类标记特征向量、 所述第一特征序列和所述第二特征序列进行拼接, 得到局 部特征序列; 将所述局部特征序列输入到用于特征融合的神经网络模型进行处理, 得到全局特征序 列。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述全局特征序列对所述文档影 像进行分类, 包括: 选取所述全局特征序列中的分类标记特征向量, 所述分类标记特征向量经所述用于特 征融合的神经网络模型处 理后融合了分类所需的相关信息; 根据所述分类标记特 征向量对所述文档影 像进行分类。 4.根据权利要求2所述的方法, 其特征在于, 将所述局部特征序列输入到用于特征融合 的神经网络模型进行处 理, 得到全局特 征序列, 包括: 将所述局部特 征序列输入Transformer神经网络模型处 理; 通过Transformer神经网络模型将第一特征序列中的信息和第二特征序列中的信息进 行融合; 通过Transformer神经网络模型将文档影像分类所需的相关信息融合到分类标记特征 向量; 通过Transformer神经网络模型 得到所述全局特 征序列并输出。 5.根据权利要求1所述的方法, 其特征在于, 所述根据文档影像中的文本得到文本特征 序列, 包括: 识别文档影 像中的文字; 将所述文本分成多个分词, 得到预设长度的文本序列; 将所述文本序列的分词映射 为多个特 征向量, 得到文本特 征序列; 所述将所述文本对应的空间位置索引映射为多个特征向量, 得到文本布局特征序列, 包括: 将所述分词的空间位置索引映射 为多个特 征向量, 得到文本布局特 征序列。 6.根据权利要求5所述的方法, 其特 征在于, 所述将所述文本分成多个分词, 包括: 将所述文本进行截断;权 利 要 求 书 1/2 页 2 CN 115544200 A 2对相应的截断文本进行填充, 形成多个分词。 7.根据权利要求1所述的方法, 其特征在于, 所述根据所述文档影像中的图像得到图像 特征序列, 包括: 将所述文档影 像的图像分割为多个图块; 将所述图块的信息映射 为多个特 征向量, 得到图像特 征序列; 所述将所述图像对应的空间位置索引映射为多个特征向量, 得到 图像布局特征序列, 包括: 将所述图块对应的空间位置索引映射 为多个特 征向量, 得到图像布局特 征序列。 8.根据权利要求1所述的方法, 其特征在于, 所述将所述文本布局特征序列与文本特征 序列相结合, 包括: 将所述文本布局特征序列与文本特征序列以物理拼接的方式相结合, 其中所述文本布 局特征序列与文本特 征序列中的特 征向量维度相等; 所述将所述图像布局特 征序列与图像特 征序列相结合, 包括: 将所述图像布局特征序列与图像特征序列以物理拼接的方式相结合, 其中, 所述图像 布局特征序列与图像特 征序列中的特 征向量的维度相等。 9.根据权利要求1 ‑8任一项所述的方法, 其特征在于, 所述根据 所述全局特征序列对所 述文档影 像进行分类, 包括: 将所述全局特 征序列输入Softmax分类 器; Softmax分类 器根据全局特 征序列对所述文档影 像进行分类。 10.一种文档影 像分类装置, 其特 征在于, 所述装置包括: 文本信息获取模块, 用于将根据文档影像中的文本和所述文本对应的空间位置索引映 射为多个特征向量, 获取得到文本特征序列和文本布局特征序列, 将所述文本特征序列和 文本布局特 征序列相结合, 得到第一特 征序列; 图像信息获取模块, 用于将根据文档影像中的图像和所述图像对应的空间位置索引映 射为多个特征向量, 获取得到图像特征序列和图像布局特征序列, 将所述图像特征序列和 所述图像布局特 征序列相结合, 得到第二特 征序列; 全局特征序列获取模块, 用于对第一特征序列和第二特征序列进行处理, 得到全局特 征序列; 分类模块, 用于根据全局特 征序列, 对所述文档影 像进行分类。权 利 要 求 书 2/2 页 3 CN 115544200 A 3

.PDF文档 专利 一种文档影像分类方法和装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文档影像分类方法和装置 第 1 页 专利 一种文档影像分类方法和装置 第 2 页 专利 一种文档影像分类方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:12:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。