standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210120391.5 (22)申请日 2022.02.07 (71)申请人 智慧芽信息科技 (苏州) 有限公司 地址 215000 江苏省苏州市工业园区金鸡 湖大道88号人工智能产业园G3-701、 G3-801、 G3-901、 G3-1001单元 (72)发明人 杨海涛 王超超 王为磊 屠昶旸  张济徽  (74)专利代理 机构 苏州锦尚知识产权代理事务 所(普通合伙) 32502 专利代理师 李洋 李丹 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 专利文本分类号识别方法、 装置、 电子设备 及存储介质 (57)摘要 本发明涉及一种专利文本分类号识别方法、 装置、 电子设备及存储介质。 所述方法包括: 获取 目标专利文本对应的输入文本; 将所述输入文本 输入识别神经网络, 经所述识别神经网络处理后 输出所述目标专利文本的分类号确定结果。 利用 本申请实施例提供的实现方式, 可以利用构建的 类均衡数据集训练识别神经网络。 根据待识别分 类号的所述目标专利文本的输入文本, 利用训练 好的所述识别神经网络, 识别出所述目标专利文 本的分类号。 从而有效提高分类号识别的效率和 准确度, 降低人力成本 。 权利要求书2页 说明书11页 附图4页 CN 114461801 A 2022.05.10 CN 114461801 A 1.一种专利文本分类号识别方法, 其特 征在于, 所述方法包括: 获取目标专利文本对应的输入文本; 将所述输入文本输入识别神经网络, 经所述识别神经网络处理后输出所述目标专利文 本的分类号确定结果。 2.根据权利要求1所述的方法, 其特征在于, 所述识别神经网络包括语义特征提取神经 网络、 长程依赖关系捕获神经网络以及分类神经网络, 所述将所述输入文本输入识别神经 网络, 经所述识别神经网络处 理后输出 所述目标专利文本的分类号确定结果包括: 将所述输入文本输入所述语义特征提取神经网络, 经所述语义特征提取神经网络处理 后输出字向量和句向量; 将所述字向量和所述句向量输入所述长程依赖关系捕 获神经网络, 经所述长程依赖关 系捕获神经网络处 理后输出残差特 征向量; 将所述残差特征向量输入所述分类神经网络, 经所述分类神经网络处理后, 得到所述 分类号确定结果。 3.根据权利要求1所述的方法, 其特征在于, 所述获取目标专利文本对应的输入文本包 括: 对所述目标专利文本的特定 子文本进行 预处理, 得到所述输入文本 。 4.根据权利要求3所述的方法, 其特征在于, 所述特定子文本包括所述目标专利文本的 标题文本、 摘要文本、 权利要求文本, 所述对所述 目标专利文本的特定子文本进行预处理, 得到所述输入文本包括: 对所述权利要求文本进行数据清洗处理和关键词提取处理, 得到所述权利要求文本对 应的关键词文本; 将所述关键词文本、 所述标题文本、 所述摘要文本合并, 得到文本长度为固定值的所述 输入文本 。 5.根据权利要求2所述的方法, 其特征在于, 所述将所述残差特征向量输入分类神经网 络, 经所述分类神经网络处 理后, 得到所述分类号确定结果包括: 将所述残差特征向量输入所述分类神经网络, 经所述分类神经网络处理后输出所述目 标专利文本归属于各分类号的概 率值; 将所述各分类号按照其对应的概率值从高到低进行排列, 并将概率值排列在前N个的 分类号确定为所述分类号确定结果, 其中, N≥1。 6.根据权利要求5所述的方法, 其特征在于, 所述分类号包括小类号和小组号, 所述各 分类号的概率值包括各小类号的概率值和各小组号的概率值, 所述N个分类号包括各小类 号中按照其对应的概率值从 高到低排在前M个的小类号和各小组号中按照其对应的概率值 从高到低排在前L个的小组号, 其中, M≥1, L≥1。 7.根据权利要求2所述的方法, 其特征在于, 所述语义特征提取神经网络包括Bert语义 特征提取模型, 所述长程依赖 关系捕获神经网络包括双向长短记忆网络长程依赖关系捕获 模型。 8.根据权利要求1所述的方法, 其特征在于, 所述识别神经网络为训练好的神经网络, 所述识别神经网络的训练方式包括: 构建专利文本训练样本集, 所述专利文本训练样本集中每个专利文本样本对应一个或权 利 要 求 书 1/2 页 2 CN 114461801 A 2多个分类号标签; 将所述专利文本训练样本集中的所述专利文本样本对应的输入文本输入所述识别神 经网络, 经 所述识别神经网络处 理输出预测的分类号确定结果; 根据所述预测的分类号确定结果和所述样本对应的分类号标签, 确定所述识别神经网 络的处理结果的损失; 向所述识别神经网络反向传播所述损失, 以调整所述识别神经网络的网络参数。 9.根据权利要求8所述的方法, 其特征在于, 所述构建专利文本训练样本集的方式包 括: 根据原始数据中每 个专利文本样本对应的分类号标签, 得到分类号标签排序列表; 遍历所述分类号标签排序列表, 获取每 个分类号标签对应的样本数量; 若分类号标签对应的样本数量小于预设值, 则将该分类号标签对应的样本按预设比例 分配到所述专利文本训练样本集和专利文本测试样本集; 若分类号标签对应的样本数量大于或等于所述预设值, 则将该分类号标签对应的样 本, 填充第一固定数量至所述专利文本训练样本集, 以及填充第二固定数量至所述专利文 本测试样本集。 10.根据权利要求8或9所述的方法, 其特征在于, 所述分类号标签包括小组号和小类 号。 11.一种专利文本分类号识别装置, 其特 征在于, 所述装置包括: 数据预处 理模块, 被 配置为获取目标专利文件 对应的输入文本; 识别模块, 被配置为将所述输入文本输入识别神经网络, 经所述识别神经网络处理后 输出所述目标专利文本的分类号确定结果。 12.根据权利要求1 1所述的装置, 其特 征在于, 所述识别模块包括: 语义特征提取单元, 被配置为将所述输入文本输入语义特征提取神经网络, 经所述语 义特征提取神经网络处 理后输出字向量和句向量; 长程依赖关系捕 获单元, 被配置为将所述字向量和所述句向量输入长程依赖关系捕 获 神经网络, 经 所述长程依赖关系捕获神经网络处 理后输出残差特 征向量; 分类单元, 被配置为将所述残差特征向量输入分类神经网络, 经所述分类神经网络处 理后, 得到所述分类号确定结果。 13.一种电子设备, 其特 征在于, 包括: 处理器; 用于存储可执行指令的存 储器; 其中, 所述处理器通过调用所述可执行指令实现如权利要求1至10中任意一项所述的 方法。 14.一种非易失性计算机可读存储介质, 其上存储有计算机程序指令, 其特征在于, 所 述计算机程序指令被处 理器执行时实现权利要求1至10中任意 一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114461801 A 3

PDF文档 专利 专利文本分类号识别方法、装置、电子设备及存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 专利文本分类号识别方法、装置、电子设备及存储介质 第 1 页 专利 专利文本分类号识别方法、装置、电子设备及存储介质 第 2 页 专利 专利文本分类号识别方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:39上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。