(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211000816.5 (22)申请日 2022.08.19 (71)申请人 北京华宇九品科技有限公司 地址 100084 北京市海淀区中关村东路1号 院8号楼21层C2303-3 (72)发明人 李刚  (74)专利代理 机构 北京智行 阳光知识产权代理 事务所(普通 合伙) 11738 专利代理师 孙雪广 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/284(2020.01) (54)发明名称 一种文档分类方法、 系统、 计算机设备及存 储介质 (57)摘要 本发明公开了一种文档分类方法、 系统、 计 算机设备及存储介质, 方法包括: 监测是否有新 类别的目标文档输入至预先构建的文档分类模 型; 响应于有新类别的目标文档, 利用预设的分 词算法对目标文档进行分词处理且得到目标语 料库, 并生成词汇级向量; 利用汉语言模型N ‑ Gram对目标语料库中的各单词进行片段切分得 到字符级向量; 将词汇级向量和字符级向量构成 的特征向量作为新的训练数据并输入文档分类 模型, 进而利用新的训练数据对文档分类模型进 行优化, 并基于优化后的文档分类模 型输出目标 文档的分类结果。 本发明提供的分类方法利用相 对较少的训练数据却能达到较高准确率的文档 分类效果, 是一种增量自学习式架构设计, 训练 效率高、 分类准确率高。 权利要求书2页 说明书11页 附图3页 CN 115292498 A 2022.11.04 CN 115292498 A 1.一种文档分类方法, 其特 征在于, 包括: 监测是否有新类别的目标文档输入至预 先构建的文档分类模型; 响应于有新类别的目标文档, 利用预设的分词算法对目标文档进行分词处理且得到目 标语料库, 并生成对应于所述目标语料库的词汇级向量; 利用汉语言模型N ‑Gram对所述目标语料库中的各单词进行片段切分, 得到各单词对应 的字符级向量; 将所述词汇级向量和所述字符级向量构成的特征向量作为新的训练数据并输入所述 文档分类模型, 进而利用新的训练数据对所述文档 分类模型进行优化, 并基于优化后的文 档分类模型输出目标文档的分类结果。 2.根据权利要求1所述的文档分类方法, 其特 征在于, 还 包括: 在未监测到新类别的目标文档的情况下, 直接利用预先构建的所述文档分类模型对所 述目标文档进行识别, 且输出分类结果。 3.根据权利要求1所述的文档分类方法, 其特征在于, 预先构建文档分类模型的步骤包 括: 构建训练数据和 测试数据, 并分别对训练数据和 测试数据标注类别标签; 利用预设的分词算法对训练数据中的文档进行分词处理且得到训练语料库, 并生成对 应于所述训练语料库的词汇级向量; 利用汉语言模型N ‑Gram对所述训练语料库中的各单词进行片段切分, 得到各单词对应 的字符级向量; 将所述词汇级向量和所述字符级向量构成的特征向量作为训练数据, 输入至基于 Softmax分类器构建的文档分类模型中, 通过Softmax分类器的输入层、 隐含层并经输出层 输出训练数据的分类结果; 以及, 将所述测试数据输入至所构建的文档分类模型, 并输出所述测试数据的测试分类结 果; 利用所述测试 数据的类别标签对所述测试分类结果进行准确性测试。 4.根据权利要求3所述的文档分类方法, 其特征在于, 所述生成对应于所述训练语料库 的词汇级向量之前, 还 包括: 对训练语料库中的停用词进行 数据清洗; 对数据清洗后的训练语料库进行降维处 理。 5.根据权利要求3所述的文档分类方法, 其特 征在于, 还 包括: 将测试分类结果与对应的类别标签不 一致的测试 数据作为 修正训练数据; 将所述修正训练数据输入至所述文档分类模型, 通过调整所述Softmax分类器的参数 使得模型输出的分类结果 为对应的类别标签为止 完成修正处理。 6.根据权利要求3所述的文档分类方法, 其特征在于, 所述将所述词汇级向量和所述字 符级向量构成的特征向量作为训练数据, 输入至基于Softmax分类器构建的文档分类模型 中的步骤, 包括: 将所述词汇级向量和所述字符级向量进行叠加, 并对叠加后的向量求平均, 进而得到 作为训练数据的特 征向量。 7.根据权利要求 4所述的文档分类方法, 其特 征在于, 所述Softmax分类 器的学习率设置为0.6~1.2;权 利 要 求 书 1/2 页 2 CN 115292498 A 2特征向量维度设置为20 0~300; 模型训练时的循环迭代次数设置为3 00~500; 汉语言模型N ‑Gram为一元模型。 8.一种文档分类系统, 其特 征在于, 包括: 新类别监测单元, 用于检测是否有新类别的目标文档输入至预先构建的文档分类模 型; 单词切分单元, 用于响应于有新类别的目标文档, 利用预设的分词算法对目标文档进 行分词处 理且得到目标语料库, 并生成对应于所述目标语料库的词汇级向量; 字符切分单元, 用于利用汉语言模型N ‑Gram对所述目标语料库中的各单词进行片段切 分, 得到各 单词对应的字符级向量; 分类及模型优化单元, 用于将所述词汇级向量和所述字符级向量构 成的特征向量作为 新的训练数据并输入所述文档分类模型, 进而利用新的训练数据对所述文档分类模型进 行 优化, 并基于优化后的文档分类模型输出目标文档的分类结果。 9.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至7中任一项 所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理 器执行时实现如权利要求1至7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115292498 A 3

.PDF文档 专利 一种文档分类方法、系统、计算机设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文档分类方法、系统、计算机设备及存储介质 第 1 页 专利 一种文档分类方法、系统、计算机设备及存储介质 第 2 页 专利 一种文档分类方法、系统、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:12:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。