(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210152370.1
(22)申请日 2022.02.18
(71)申请人 上海高德威智能交通系统有限公司
地址 201821 上海市嘉定区云谷路59 9弄6
号620室J 1452
(72)发明人 李再升 乔梁 程战战 钮毅
(74)专利代理 机构 北京博思佳知识产权代理有
限公司 1 1415
专利代理师 杨春香
(51)Int.Cl.
G06V 30/41(2022.01)
G06V 30/18(2022.01)
G06V 10/82(2022.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
(54)发明名称
一种表格解析方法、 装置及电子设备
(57)摘要
本申请实施例公开了一种表格解析方法、 装
置及电子设备。 本申请通过将目标文件输入至单
元格检测模型得到目标文件中各单元格的位置
信息, 然后依据目标文件中各单元格的位置信
息, 确定用于反映各单元格 之间行列关系的空间
邻接矩阵, 同时获得该目标文件中各单元格的单
元格特征信息, 依据上述的单元格特征信息和空
间邻接矩 阵对目标文件中的单元格进行解析得
到解析结果, 从而得到表格中每两个单元格之间
的对应关系, 以确定出表格中的有效信息 。
权利要求书3页 说明书13页 附图4页
CN 114550188 A
2022.05.27
CN 114550188 A
1.一种表格解析 方法, 其特 征在于, 该 方法应用于电子设备, 包括:
将目标文件输入至单 元格检测模型 得到所述目标文件中各 单元格的位置信息;
依据所述目标文件中各单元格的位置信 息, 确定用于反映各单元格之间行列关系的空
间邻接矩阵;
获得所述目标文件中各单元格的单元格特征信 息; 所述单元格的单元格特征信 息用于
标识该单元格;
依据所述单元格特征信息和所述空间邻接矩阵对所述目标文件中的单元格进行解析
得到解析结果, 所述解析结果至少包括: 任意两个不同单元格之间的键值对关系; 所述两个
不同单元格之 间的键值对关系用于指示所述两个单元格分别表示的内容具有对应关系、 以
及该对应关系成立的概 率。
2.根据权利要求1所述的方法, 其特征在于, 所述单元格检测模型至少包括: 表格检测
层、 局部掩码对齐层、 全局掩码对齐层和后处 理层;
所述表格 检测层, 用于检测所述目标文件中的表格区域;
所述局部掩码对齐层, 用于对所述表格区域进行非空单元格检测得到至少一个非空单
元格的候选区域, 获得每 个候选区域的局部掩码;
所述全局掩码对齐层, 用于确定所述表格区域中表格框线的位置, 以及所述表格区域
的全局掩码;
所述后处理层, 用于针对每一候选区域, 依据该候选区域的局部掩码和该候选区域在
所述全局掩码中对应的掩码, 对该候选区域进行优化, 将优化后的候选区域的坐标作为其
对应的非空单元格的坐标; 依据所述表格框线的位置和所述非空单元格的坐标, 确定空单
元格的坐标。
3.根据权利要求2所述的方法, 其特征在于, 所述局部掩码对齐层对所述表格区域进行
非空单元格检测得到至少一个非空单元格的候选区域, 获得每个候选区域的局部掩码包
括:
在所述表格区域中确定各个非空单元格的单元格边框以及该非空单元格内文本块的
位置, 将各 单元格边框围成的区域作为各非空单 元格对应的候选区域;
预测各个单元格边框中至少一行像素点中各像素点对应的水平软标签值; 所述水平软
标签值用于指示所述单 元格的置信度;
预测各个单元格边框中至少一列像素点中各像素点对应的垂直软标签值; 所述垂直软
标签值用于指示所述单 元格的置信度;
针对每一单元格边框, 将各个像素点对应的水平软标签值和垂直软标签值作为该单元
格边框对应的候选区域的局部掩码。
4.根据权利要求1所述的方法, 其特征在于, 获得所述目标文件中各单元格的单元格特
征信息包括:
针对所述目标文件中每一单元格, 依据所述目标文件中该单元格的位置信 息确定所述
位置信息对应的位置特 征;
对该单元格进行语义解析得到该单元格的语义特征; 单元格的语义特征用于指示单元
格中的数据内容;
对该单元格在所述目标文件中的图像进行图像特 征提取, 得到该 单元格的图像特 征;权 利 要 求 书 1/3 页
2
CN 114550188 A
2将该单元格的位置特征、 语义特征和图像特征中的至少之一确定为单元格的单元格特
征信息。
5.根据权利要求4所述的方法, 其特征在于, 所述对该单元格进行语义解析得到该单元
格的语义特 征包括:
将该单元格的位置信息和所述目标文件输入至文本识别工具中得到该单元格中的数
据内容;
将该单元格中的数据内容输入至语义特 征提取模型 得到该单元格的语义特 征。
6.根据权利要求4所述的方法, 其特征在于, 所述对该单元格在所述目标文件中的图像
进行图像特 征提取包括:
将该单元格的位置信息和单元格特征图像输入至图像特征提取模型得到该单元格的
图像特征;
其中, 所述单 元格特征图像用于指示该 单元格的版式信息 。
7.根据权利要求1所述的方法, 其特征在于, 所述依据所述单元格特征信 息和所述空间
邻接矩阵对所述目标文件中的单 元格进行解析 得到解析 结果, 包括:
将所述单元格特征信 息和所述空间邻 接矩阵输入至图卷积神经网络, 得到所述目标文
件中任意两个不同单 元格之间的键值对关系;
所述两个不同单元格之间的键值对关系是通过对该两个不同单元格的单元格特征信
息分别进行至少一次指定运 算确定的。
8.一种表格解析装置, 其特 征在于, 该装置应用于电子设备, 包括:
位置信息获取单元, 用于将目标文件输入至单元格检测模型得到所述目标文件中各单
元格的位置信息;
邻接矩阵获取单元, 用于依据所述目标文件中各单元格的位置信息, 确定用于反映各
单元格之间行列关系的空间邻接矩阵;
特征信息获取单元, 用于获得所述目标文件中各单元格的单元格特征信息; 所述单元
格的单元格特征信息用于标识该 单元格;
表格解析单元, 用于依据所述单元格特征信 息和所述空间邻 接矩阵对所述目标文件中
的单元格进行解析得到解析结果, 所述解析结果至少包括: 任意两个不同单元格之间的键
值对关系; 所述两个不同单元格之 间的键值对关系用于指示所述两个单元格分别表示的内
容具有对应关系 、 以及该对应关系成立的概 率。
9.根据权利要求8所述的装置, 其特征在于, 所述位置信 息获取单元中的单元格检测模
型至少包括: 表格 检测层、 局部掩码对齐层、 全局掩码对齐层和后处 理层;
所述表格 检测层, 用于检测所述目标文件中的表格区域;
所述局部掩码对齐层, 用于对所述表格区域进行非空单元格检测得到至少一个非空单
元格的候选区域, 获得每 个候选区域的局部掩码;
所述全局掩码对齐层, 用于确定所述表格区域中表格框线的位置, 以及所述表格区域
的全局掩码;
所述后处理层, 用于针对每一候选区域, 依据该候选区域的局部掩码和该候选区域在
所述全局掩码中对应的掩码, 对该候选区域进行优化, 将优化后的候选区域的坐标作为其
对应的非空单元格的坐标; 依据所述表格框线的位置和所述非空单元格的坐标, 确定空单权 利 要 求 书 2/3 页
3
CN 114550188 A
3
专利 一种表格解析方法、装置及电子设备
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:32上传分享