(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210154579.1
(22)申请日 2022.02.18
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 王佳阳 何烩烩 向宇波 苏崔聪
沈俊宇 刘明浩
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
专利代理师 吕朝蕙
(51)Int.Cl.
G06V 30/19(2022.01)
G06V 30/14(2022.01)
G06V 30/148(2022.01)
G06V 30/18(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)
(54)发明名称
文本分类方法和文本分类模 型的训练方法、
装置
(57)摘要
本公开提供了一种文本 分类方法、 文本分类
模型的训练方法、 装置、 电子设备和存储介质, 涉
及人工智能领域, 具体涉及文字识别领域、 深度
学习领域和图像处理领域, 可应用于提取文档信
息等场景。 文本分类方法的具体实现方案为: 根
据待处理图像的图像特征和待处理图像包括的
多个字段, 确定多个字段中每个字段的文本特
征; 根据多个字段的多个文本特征和多个字段在
待处理图像中的多个位置信息, 确定每个字段的
结构特征; 以及根据每个字段的文本特征和每个
字段的结构特 征, 确定每个字段的类别。
权利要求书4页 说明书14页 附图7页
CN 114495113 A
2022.05.13
CN 114495113 A
1.一种文本分类方法, 包括:
根据待处理图像的图像特征和所述待处理图像包括的多个字段, 确定所述多个字段中
每个字段的文本特 征;
根据所述多个字段的多个文本特征和所述多个字段在所述待处理图像中的多个位置
信息, 确定所述每 个字段的结构特 征; 以及
根据所述每个字段的文本特征和所述每个字段的结构特征, 确定所述每个字段的类
别。
2.根据权利要求1所述的方法, 其中, 确定所述每 个字段的结构特 征包括:
根据所述多个文本特 征, 确定表征 所述多个文本特 征彼此之间差异的差异特 征;
根据所述多个字段在所述待处理图像中的多个位置信 息, 确定表征所述多个位置信 息
彼此之间的相对关系的关系特 征; 以及
根据所述差异特征、 所述关系特征和所述多个文本特征, 确定所述每个字段的结构特
征。
3.根据权利要求2所述的方法, 其中, 所述根据所述多个文本特征, 确定表征所述多个
文本特征彼此之间差异的差异特 征包括:
确定由所述多个文本特 征构成的特 征矩阵; 以及
根据所述特 征矩阵与所述特 征矩阵的转置矩阵之间的差值, 确定所述差异特 征。
4.根据权利要求2所述的方法, 其中, 所述根据所述差异特征、 所述关系特征和所述多
个文本特 征, 确定所述每 个字段的结构特 征包括:
以所述差异特 征为权重对所述关系特 征加权, 得到加权后特 征; 以及
将所述加权后特征和所述多个文本特征输入图卷积网络, 得到所述每个字段的结构特
征。
5.根据权利要求1所述的方法, 其中, 确定所述多个字段中每 个字段的文本特 征包括:
根据所述每个字段在所述待处理图像中的位置信 息, 确定所述图像特征中针对所述每
个字段的图像子特 征;
确定所述每 个字段的文本嵌入特 征; 以及
根据所述图像子特 征和所述文本嵌入特 征, 得到所述每 个字段的文本特 征。
6.根据权利要求5所述的方法, 其中, 所述根据所述图像子特征和所述文本嵌入特征,
得到所述每 个字段的文本特 征包括:
拼接所述图像子特 征和所述文本嵌入特 征, 得到拼接特 征; 以及
从所述拼接特征中提取 所述每个字段的文本特 征。
7.一种文本分类模型的训练方法, 其中, 所述文本分类模型包括文本特征提取网络、 图
卷积网络和类别预测网络; 所述方法包括:
将样本图像的图像特征和所述样本图像包括的多个字段输入所述文本特征提取网络,
得到所述多个字段中每个字段的文本特征; 所述样本图像还包括指示所述每个字段的实际
类别的第一信息;
根据所述多个字段的多个文本特征和所述多个字段在所述待处理图像中的多个位置
信息, 采用所述图卷积网络确定针对所述多个字段 的图特征, 所述图特征包括所述每个字
段的结构特 征;权 利 要 求 书 1/4 页
2
CN 114495113 A
2将所述多个字段的多个文本特征和所述多个字段的多个结构特征输入所述类别预测
网络, 得到所述每 个字段的预测类别; 以及
根据所述预测类别和所述实际类别, 对所述文本分类模型进行训练。
8.根据权利要求7所述的方法, 其中, 所述图特征还包括所述多个字段彼此之间的关系
特征; 所述样本图像还包括指示所述多个字段彼此之间关系的第二信息; 所述文本分类模
型还包括关系预测网络; 所述方法还 包括:
将所述关系特征输入所述关系预测网络, 得到所述多个字段彼此之间的预测关系信
息; 以及
根据所述预测关系信息和所述第二信息, 对所述文本分类模型进行训练。
9.根据权利要求7所述的方法, 其中, 所述文本分类模型还包括关系提取网络和差异提
取网络; 采用所述图卷积网络确定针对所述多个字段的图特 征包括:
将所述多个文本特征输入所述差异提取网络, 得到表征所述多个文本特征彼此之间差
异的差异特 征;
将所述多个字段在所述样本图像中的多个位置信 息输入所述关系提取网络, 得到表征
所述多个位置信息彼此之间的相对关系的关系特 征; 以及
根据所述差异特征、 所述关系特征和所述多个文本特征, 采用所述图卷积网络确定针
对所述多个字段的图特 征。
10.根据权利要求9所述的方法, 还 包括:
根据所述差异特 征和所述多个文本特 征, 确定所述文本分类模型的自监 督损失; 以及
根据所述自监 督损失, 对所述文本分类模型进行训练。
11.根据权利要求9所述的方法, 其中, 所述根据所述差异特征、 所述关系特征和所述多
个文本特 征, 采用所述图卷积网络确定针对所述多个字段的图特 征包括:
以所述差异特 征为权重对所述关系特 征加权, 得到加权后特 征; 以及
将所述加权后特征和所述多个文本特征输入所述图卷积网络, 得到针对所述多个字段
的图特征。
12.一种文本分类装置, 包括:
第一文本特征提取模块, 用于根据待处理图像的图像特征和所述待处理图像包括的多
个字段, 确定所述多个字段中每 个字段的文本特 征;
结构特征确定模块, 用于根据 所述多个字段的多个文本特征和所述多个字段在所述待
处理图像中的多个位置信息, 确定所述每 个字段的结构特 征; 以及
类别确定模块, 用于根据所述每个字段的文本特征和所述每个字段的结构特征, 确定
所述每个字段的类别。
13.根据权利要求12所述的装置, 其中, 所述结构特 征确定模块包括:
第一差异特征确定子模块, 用于根据所述多个文本特征, 确定表征所述多个文本特征
彼此之间差异的差异特 征;
第一关系特征确定子模块, 用于根据 所述多个字段在所述待处理图像中的多个位置信
息, 确定表征 所述多个位置信息彼此之间的相对关系的关系特 征; 以及
结构特征确定子模块, 用于根据所述差异特征、 所述关系特征和所述多个文本特征, 确
定所述每 个字段的结构特 征。权 利 要 求 书 2/4 页
3
CN 114495113 A
3
专利 文本分类方法和文本分类模型的训练方法、装置
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:32上传分享