文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211000816.5 (22)申请日 2022.08.19 (71)申请人 北京华宇九品科技有限公司 地址 100084 北京市海淀区中关村东路1号 院8号楼21层C2303-3 (72)发明人 李刚 (74)专利代理 机构 北京智行 阳光知识产权代理 事务所(普通 合伙) 11738 专利代理师 孙雪广 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/284(2020.01) (54)发明名称 一种文档分类方法、 系统、 计算机设备及存 储介质 (57)摘要 本发明公开了一种文档分类方法、 系统、 计 算机设备及存储介质, 方法包括: 监测是否有新 类别的目标文档输入至预先构建的文档分类模 型; 响应于有新类别的目标文档, 利用预设的分 词算法对目标文档进行分词处理且得到目标语 料库, 并生成词汇级向量; 利用汉语言模型N ‑ Gram对目标语料库中的各单词进行片段切分得 到字符级向量; 将词汇级向量和字符级向量构成 的特征向量作为新的训练数据并输入文档分类 模型, 进而利用新的训练数据对文档分类模型进 行优化, 并基于优化后的文档分类模 型输出目标 文档的分类结果。 本发明提供的分类方法利用相 对较少的训练数据却能达到较高准确率的文档 分类效果, 是一种增量自学习式架构设计, 训练 效率高、 分类准确率高。 权利要求书2页 说明书11页 附图3页 CN 115292498 A 2022.11.04 CN 115292498 A 1.一种文档分类方法, 其特 征在于, 包括: 监测是否有新类别的目标文档输入至预 先构建的文档分类模型; 响应于有新类别的目标文档, 利用预设的分词算法对目标文档进行分词处理且得到目 标语料库, 并生成对应于所述目标语料库的词汇级向量; 利用汉语言模型N ‑Gram对所述目标语料库中的各单词进行片段切分, 得到各单词对应 的字符级向量; 将所述词汇级向量和所述字符级向量构成的特征向量作为新的训练数据并输入所述 文档分类模型, 进而利用新的训练数据对所述文档 分类模型进行优化, 并基于优化后的文 档分类模型输出目标文档的分类结果。 2.根据权利要求1所述的文档分类方法, 其特 征在于, 还 包括: 在未监测到新类别的目标文档的情况下, 直接利用预先构建的所述文档分类模型对所 述目标文档进行识别, 且输出分类结果。 3.根据权利要求1所述的文档分类方法, 其特征在于, 预先构建文档分类模型的步骤包 括: 构建训练数据和 测试数据, 并分别对训练数据和 测试数据标注类别标签; 利用预设的分词算法对训练数据中的文档进行分词处理且得到训练语料库, 并生成对 应于所述训练语料库的词汇级向量; 利用汉语言模型N ‑Gram对所述训练语料库中的各单词进行片段切分, 得到各单词对应 的字符级向量; 将所述词汇级向量和所述字符级向量构成的特征向量作为训练数据, 输入至基于 Softmax分类器构建的文档分类模型中, 通过Softmax分类器的输入层、 隐含层并经输出层 输出训练数据的分类结果; 以及, 将所述测试数据输入至所构建的文档分类模型, 并输出所述测试数据的测试分类结 果; 利用所述测试 数据的类别标签对所述测试分类结果进行准确性测试。 4.根据权利要求3所述的文档分类方法, 其特征在于, 所述生成对应于所述训练语料库 的词汇级向量之前, 还 包括: 对训练语料库中的停用词进行 数据清洗; 对数据清洗后的训练语料库进行降维处 理。 5.根据权利要求3所述的文档分类方法, 其特 征在于, 还 包括: 将测试分类结果与对应的类别标签不 一致的测试 数据作为 修正训练数据; 将所述修正训练数据输入至所述文档分类模型, 通过调整所述Softmax分类器的参数 使得模型输出的分类结果 为对应的类别标签为止 完成修正处理。 6.根据权利要求3所述的文档分类方法, 其特征在于, 所述将所述词汇级向量和所述字 符级向量构成的特征向量作为训练数据, 输入至基于Softmax分类器构建的文档分类模型 中的步骤, 包括: 将所述词汇级向量和所述字符级向量进行叠加, 并对叠加后的向量求平均, 进而得到 作为训练数据的特 征向量。 7.根据权利要求 4所述的文档分类方法, 其特 征在于, 所述Softmax分类 器的学习率设置为0.6~1.2;权 利 要 求 书 1/2 页 2 CN 115292498 A 2特征向量维度设置为20 0~300; 模型训练时的循环迭代次数设置为3 00~500; 汉语言模型N ‑Gram为一元模型。 8.一种文档分类系统, 其特 征在于, 包括: 新类别监测单元, 用于检测是否有新类别的目标文档输入至预先构建的文档分类模 型; 单词切分单元, 用于响应于有新类别的目标文档, 利用预设的分词算法对目标文档进 行分词处 理且得到目标语料库, 并生成对应于所述目标语料库的词汇级向量; 字符切分单元, 用于利用汉语言模型N ‑Gram对所述目标语料库中的各单词进行片段切 分, 得到各 单词对应的字符级向量; 分类及模型优化单元, 用于将所述词汇级向量和所述字符级向量构 成的特征向量作为 新的训练数据并输入所述文档分类模型, 进而利用新的训练数据对所述文档分类模型进 行 优化, 并基于优化后的文档分类模型输出目标文档的分类结果。 9.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至7中任一项 所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理 器执行时实现如权利要求1至7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115292498 A 3
专利 一种文档分类方法、系统、计算机设备及存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 02:12:23
上传分享
举报
下载
原文档
(626.5 KB)
分享
友情链接
T-CRETA 0001—2023 白云鄂博矿选冶固废制备绿色建材放射性限量.pdf
商用密码应用安全性评估报告模板(2023版)—系统密评报告.docx
GB-T 24363-2009 信息安全技术 信息安全应急响应计划规范.pdf
GB-T 26603-2011 N,N-二甲基苯胺.pdf
GB-T 33018.2-2016 炭素企业节能技术规范 第2部分:焙烧窑炉.pdf
T-CAAMTB 19—2019 汽车零部件再制造企业管理体系 要求.pdf
GB-T 20806-2022 饲料中中性洗涤纤维 NDF 的测定.pdf
奇安信 2020年Android平台恶意样本整体态势分析报告.pdf
贵州省大数据安全保障条例.pdf
GB-T 5585.1-2018 电工用铜、铝及其合金母线 第1部分:铜和铜合金母线.pdf
GB-T 13667.1-2015 钢制书架 第1部分:单、复柱书架.pdf
GB-T 25063-2010 信息安全技术 服务器安全测评要求.pdf
GB-T 34079.1-2021 基于云计算的电子政务公共平台服务规范 第1部分:服务分类与编码.pdf
DL-T 2038-2019 高压直流输电工程直流磁场测量方法.pdf
T-NIFA 24—2023 金融分布式账本技术资金管理应用业务要求.pdf
深信服 数字化转型下医院安全运营实践 2021.pdf
TB-T 1346-2018 木枕用道钉.pdf
GB-T 18884.1-2015 家用厨房设备 第1部份:术语.pdf
JR-T 0231—2021 银行业第三方软件开发工具包(SDK)安全接入指南.pdf
GB-T 43758.1-2024 智能网联汽车运行安全测试环境技术 条件 第1部分 公共道路.pdf
1
/
3
17
评价文档
赞助2元 点击下载(626.5 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。