专利 文本分类方法和文本分类模型的训练方法、装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210154579.1 (22)申请日 2022.02.18 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人王佳阳　何烩烩　向宇波　苏崔聪　沈俊宇　刘明浩　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师吕朝蕙 (51)Int.Cl. G06V 30/19(2022.01) G06V 30/14(2022.01) G06V 30/148(2022.01) G06V 30/18(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01) (54)发明名称文本分类方法和文本分类模型的训练方法、装置 (57)摘要本公开提供了一种文本分类方法、文本分类模型的训练方法、装置、电子设备和存储介质，涉及人工智能领域，具体涉及文字识别领域、深度学习领域和图像处理领域，可应用于提取文档信息等场景。文本分类方法的具体实现方案为：根据待处理图像的图像特征和待处理图像包括的多个字段，确定多个字段中每个字段的文本特征；根据多个字段的多个文本特征和多个字段在待处理图像中的多个位置信息，确定每个字段的结构特征；以及根据每个字段的文本特征和每个字段的结构特征，确定每个字段的类别。权利要求书4页说明书14页附图7页 CN 114495113 A 2022.05.13 CN 114495113 A 1.一种文本分类方法，包括：根据待处理图像的图像特征和所述待处理图像包括的多个字段，确定所述多个字段中每个字段的文本特征；根据所述多个字段的多个文本特征和所述多个字段在所述待处理图像中的多个位置信息，确定所述每个字段的结构特征；以及根据所述每个字段的文本特征和所述每个字段的结构特征，确定所述每个字段的类别。 2.根据权利要求1所述的方法，其中，确定所述每个字段的结构特征包括：根据所述多个文本特征，确定表征所述多个文本特征彼此之间差异的差异特征；根据所述多个字段在所述待处理图像中的多个位置信息，确定表征所述多个位置信息彼此之间的相对关系的关系特征；以及根据所述差异特征、所述关系特征和所述多个文本特征，确定所述每个字段的结构特征。 3.根据权利要求2所述的方法，其中，所述根据所述多个文本特征，确定表征所述多个文本特征彼此之间差异的差异特征包括：确定由所述多个文本特征构成的特征矩阵；以及根据所述特征矩阵与所述特征矩阵的转置矩阵之间的差值，确定所述差异特征。 4.根据权利要求2所述的方法，其中，所述根据所述差异特征、所述关系特征和所述多个文本特征，确定所述每个字段的结构特征包括：以所述差异特征为权重对所述关系特征加权，得到加权后特征；以及将所述加权后特征和所述多个文本特征输入图卷积网络，得到所述每个字段的结构特征。 5.根据权利要求1所述的方法，其中，确定所述多个字段中每个字段的文本特征包括：根据所述每个字段在所述待处理图像中的位置信息，确定所述图像特征中针对所述每个字段的图像子特征；确定所述每个字段的文本嵌入特征；以及根据所述图像子特征和所述文本嵌入特征，得到所述每个字段的文本特征。 6.根据权利要求5所述的方法，其中，所述根据所述图像子特征和所述文本嵌入特征，得到所述每个字段的文本特征包括：拼接所述图像子特征和所述文本嵌入特征，得到拼接特征；以及从所述拼接特征中提取所述每个字段的文本特征。 7.一种文本分类模型的训练方法，其中，所述文本分类模型包括文本特征提取网络、图卷积网络和类别预测网络；所述方法包括：将样本图像的图像特征和所述样本图像包括的多个字段输入所述文本特征提取网络，得到所述多个字段中每个字段的文本特征；所述样本图像还包括指示所述每个字段的实际类别的第一信息；根据所述多个字段的多个文本特征和所述多个字段在所述待处理图像中的多个位置信息，采用所述图卷积网络确定针对所述多个字段的图特征，所述图特征包括所述每个字段的结构特征；权　利　要　求　书 1/4 页 2 CN 114495113 A 2将所述多个字段的多个文本特征和所述多个字段的多个结构特征输入所述类别预测网络，得到所述每个字段的预测类别；以及根据所述预测类别和所述实际类别，对所述文本分类模型进行训练。 8.根据权利要求7所述的方法，其中，所述图特征还包括所述多个字段彼此之间的关系特征；所述样本图像还包括指示所述多个字段彼此之间关系的第二信息；所述文本分类模型还包括关系预测网络；所述方法还包括：将所述关系特征输入所述关系预测网络，得到所述多个字段彼此之间的预测关系信息；以及根据所述预测关系信息和所述第二信息，对所述文本分类模型进行训练。 9.根据权利要求7所述的方法，其中，所述文本分类模型还包括关系提取网络和差异提取网络；采用所述图卷积网络确定针对所述多个字段的图特征包括：将所述多个文本特征输入所述差异提取网络，得到表征所述多个文本特征彼此之间差异的差异特征；将所述多个字段在所述样本图像中的多个位置信息输入所述关系提取网络，得到表征所述多个位置信息彼此之间的相对关系的关系特征；以及根据所述差异特征、所述关系特征和所述多个文本特征，采用所述图卷积网络确定针对所述多个字段的图特征。 10.根据权利要求9所述的方法，还包括：根据所述差异特征和所述多个文本特征，确定所述文本分类模型的自监督损失；以及根据所述自监督损失，对所述文本分类模型进行训练。 11.根据权利要求9所述的方法，其中，所述根据所述差异特征、所述关系特征和所述多个文本特征，采用所述图卷积网络确定针对所述多个字段的图特征包括：以所述差异特征为权重对所述关系特征加权，得到加权后特征；以及将所述加权后特征和所述多个文本特征输入所述图卷积网络，得到针对所述多个字段的图特征。 12.一种文本分类装置，包括：第一文本特征提取模块，用于根据待处理图像的图像特征和所述待处理图像包括的多个字段，确定所述多个字段中每个字段的文本特征；结构特征确定模块，用于根据所述多个字段的多个文本特征和所述多个字段在所述待处理图像中的多个位置信息，确定所述每个字段的结构特征；以及类别确定模块，用于根据所述每个字段的文本特征和所述每个字段的结构特征，确定所述每个字段的类别。 13.根据权利要求12所述的装置，其中，所述结构特征确定模块包括：第一差异特征确定子模块，用于根据所述多个文本特征，确定表征所述多个文本特征彼此之间差异的差异特征；第一关系特征确定子模块，用于根据所述多个字段在所述待处理图像中的多个位置信息，确定表征所述多个位置信息彼此之间的相对关系的关系特征；以及结构特征确定子模块，用于根据所述差异特征、所述关系特征和所述多个文本特征，确定所述每个字段的结构特征。权　利　要　求　书 2/4 页 3 CN 114495113 A 3

专利 文本分类方法和文本分类模型的训练方法、装置

专利文本分类方法和文本分类模型的训练方法、装置