standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210120391.5 (22)申请日 2022.02.07 (71)申请人 智慧芽信息科技 (苏州) 有限公司 地址 215000 江苏省苏州市工业园区金鸡 湖大道88号人工智能产业园G3-701、 G3-801、 G3-901、 G3-1001单元 (72)发明人 杨海涛 王超超 王为磊 屠昶旸 张济徽 (74)专利代理 机构 苏州锦尚知识产权代理事务 所(普通合伙) 32502 专利代理师 李洋 李丹 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 专利文本分类号识别方法、 装置、 电子设备 及存储介质 (57)摘要 本发明涉及一种专利文本分类号识别方法、 装置、 电子设备及存储介质。 所述方法包括: 获取 目标专利文本对应的输入文本; 将所述输入文本 输入识别神经网络, 经所述识别神经网络处理后 输出所述目标专利文本的分类号确定结果。 利用 本申请实施例提供的实现方式, 可以利用构建的 类均衡数据集训练识别神经网络。 根据待识别分 类号的所述目标专利文本的输入文本, 利用训练 好的所述识别神经网络, 识别出所述目标专利文 本的分类号。 从而有效提高分类号识别的效率和 准确度, 降低人力成本 。 权利要求书2页 说明书11页 附图4页 CN 114461801 A 2022.05.10 CN 114461801 A 1.一种专利文本分类号识别方法, 其特 征在于, 所述方法包括: 获取目标专利文本对应的输入文本; 将所述输入文本输入识别神经网络, 经所述识别神经网络处理后输出所述目标专利文 本的分类号确定结果。 2.根据权利要求1所述的方法, 其特征在于, 所述识别神经网络包括语义特征提取神经 网络、 长程依赖关系捕获神经网络以及分类神经网络, 所述将所述输入文本输入识别神经 网络, 经所述识别神经网络处 理后输出 所述目标专利文本的分类号确定结果包括: 将所述输入文本输入所述语义特征提取神经网络, 经所述语义特征提取神经网络处理 后输出字向量和句向量; 将所述字向量和所述句向量输入所述长程依赖关系捕 获神经网络, 经所述长程依赖关 系捕获神经网络处 理后输出残差特 征向量; 将所述残差特征向量输入所述分类神经网络, 经所述分类神经网络处理后, 得到所述 分类号确定结果。 3.根据权利要求1所述的方法, 其特征在于, 所述获取目标专利文本对应的输入文本包 括: 对所述目标专利文本的特定 子文本进行 预处理, 得到所述输入文本 。 4.根据权利要求3所述的方法, 其特征在于, 所述特定子文本包括所述目标专利文本的 标题文本、 摘要文本、 权利要求文本, 所述对所述 目标专利文本的特定子文本进行预处理, 得到所述输入文本包括: 对所述权利要求文本进行数据清洗处理和关键词提取处理, 得到所述权利要求文本对 应的关键词文本; 将所述关键词文本、 所述标题文本、 所述摘要文本合并, 得到文本长度为固定值的所述 输入文本 。 5.根据权利要求2所述的方法, 其特征在于, 所述将所述残差特征向量输入分类神经网 络, 经所述分类神经网络处 理后, 得到所述分类号确定结果包括: 将所述残差特征向量输入所述分类神经网络, 经所述分类神经网络处理后输出所述目 标专利文本归属于各分类号的概 率值; 将所述各分类号按照其对应的概率值从高到低进行排列, 并将概率值排列在前N个的 分类号确定为所述分类号确定结果, 其中, N≥1。 6.根据权利要求5所述的方法, 其特征在于, 所述分类号包括小类号和小组号, 所述各 分类号的概率值包括各小类号的概率值和各小组号的概率值, 所述N个分类号包括各小类 号中按照其对应的概率值从 高到低排在前M个的小类号和各小组号中按照其对应的概率值 从高到低排在前L个的小组号, 其中, M≥1, L≥1。 7.根据权利要求2所述的方法, 其特征在于, 所述语义特征提取神经网络包括Bert语义 特征提取模型, 所述长程依赖 关系捕获神经网络包括双向长短记忆网络长程依赖关系捕获 模型。 8.根据权利要求1所述的方法, 其特征在于, 所述识别神经网络为训练好的神经网络, 所述识别神经网络的训练方式包括: 构建专利文本训练样本集, 所述专利文本训练样本集中每个专利文本样本对应一个或权 利 要 求 书 1/2 页 2 CN 114461801 A 2多个分类号标签; 将所述专利文本训练样本集中的所述专利文本样本对应的输入文本输入所述识别神 经网络, 经 所述识别神经网络处 理输出预测的分类号确定结果; 根据所述预测的分类号确定结果和所述样本对应的分类号标签, 确定所述识别神经网 络的处理结果的损失; 向所述识别神经网络反向传播所述损失, 以调整所述识别神经网络的网络参数。 9.根据权利要求8所述的方法, 其特征在于, 所述构建专利文本训练样本集的方式包 括: 根据原始数据中每 个专利文本样本对应的分类号标签, 得到分类号标签排序列表; 遍历所述分类号标签排序列表, 获取每 个分类号标签对应的样本数量; 若分类号标签对应的样本数量小于预设值, 则将该分类号标签对应的样本按预设比例 分配到所述专利文本训练样本集和专利文本测试样本集; 若分类号标签对应的样本数量大于或等于所述预设值, 则将该分类号标签对应的样 本, 填充第一固定数量至所述专利文本训练样本集, 以及填充第二固定数量至所述专利文 本测试样本集。 10.根据权利要求8或9所述的方法, 其特征在于, 所述分类号标签包括小组号和小类 号。 11.一种专利文本分类号识别装置, 其特 征在于, 所述装置包括: 数据预处 理模块, 被 配置为获取目标专利文件 对应的输入文本; 识别模块, 被配置为将所述输入文本输入识别神经网络, 经所述识别神经网络处理后 输出所述目标专利文本的分类号确定结果。 12.根据权利要求1 1所述的装置, 其特 征在于, 所述识别模块包括: 语义特征提取单元, 被配置为将所述输入文本输入语义特征提取神经网络, 经所述语 义特征提取神经网络处 理后输出字向量和句向量; 长程依赖关系捕 获单元, 被配置为将所述字向量和所述句向量输入长程依赖关系捕 获 神经网络, 经 所述长程依赖关系捕获神经网络处 理后输出残差特 征向量; 分类单元, 被配置为将所述残差特征向量输入分类神经网络, 经所述分类神经网络处 理后, 得到所述分类号确定结果。 13.一种电子设备, 其特 征在于, 包括: 处理器; 用于存储可执行指令的存 储器; 其中, 所述处理器通过调用所述可执行指令实现如权利要求1至10中任意一项所述的 方法。 14.一种非易失性计算机可读存储介质, 其上存储有计算机程序指令, 其特征在于, 所 述计算机程序指令被处 理器执行时实现权利要求1至10中任意 一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114461801 A 3
专利 专利文本分类号识别方法、装置、电子设备及存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:39
上传分享
举报
下载
原文档
(584.0 KB)
分享
友情链接
安全牛 AI防火墙技术白皮书.pdf
美创 数据安全解决方案简介.pdf
GB-T 24582-2023 多晶硅表面金属杂质含量测定 酸浸取-电感耦合等离子体质谱法.pdf
DB1408-T005-2020 果园植保器械农药有效沉积率评价技术规程 运城市.pdf
T-ZZB 1424—2019 节能低噪音三相干式电力变压器.pdf
GB-T 34960.4-2017信息技术服务治理第4部分审计导则.pdf
GB-T 39308-2020 难降解有机废水深度处理技术规范.pdf
OWASP 软件保证成熟度模型 v1.0 中文版 SAMM-1.0-cn.pdf
GM T 0130-2023 基于SM2算法的无证书及隐式证书公钥机制.pdf
DB51-T 705-2023 四川主要造林树种苗木质量分级 四川省.pdf
GB-T 22838.11-2009 卷烟和滤棒物理性能的测定 第11部分:卷烟熄火.pdf
GB 2890-2022 呼吸防护 自吸过滤式防毒面具.pdf
GB-T 34680.2-2021 智慧城市评价模型及基础评价指标体系 第2部分:信息基础设施.pdf
GB-T 26145-2010 排污阀.pdf
GB-T 20272-2019 信息安全技术 操作系统安全技术要求.pdf
GB-T 29453-2012 煤炭企业能源计量器具配备和管理要求.pdf
GB 21148-2020 足部防护 安全鞋.pdf
GB 6819-2004 溶解乙炔.pdf
TB-T 2231.2-2018 铁道车辆制动系统 第2部分:货车.pdf
T-ZGZS 0302—2021 钛石膏综合利用污染控制技术要求.pdf
1
/
18
评价文档
赞助2.5元 点击下载(584.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。