专利 专利文本分类号识别方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210120391.5 (22)申请日 2022.02.07 (71)申请人智慧芽信息科技（苏州）有限公司地址 215000 江苏省苏州市工业园区金鸡湖大道88号人工智能产业园G3-701、 G3-801、 G3-901、 G3-1001单元 (72)发明人杨海涛　王超超　王为磊　屠昶旸　张济徽　 (74)专利代理机构苏州锦尚知识产权代理事务所(普通合伙) 32502 专利代理师李洋　李丹 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称专利文本分类号识别方法、装置、电子设备及存储介质 (57)摘要本发明涉及一种专利文本分类号识别方法、装置、电子设备及存储介质。所述方法包括：获取目标专利文本对应的输入文本；将所述输入文本输入识别神经网络，经所述识别神经网络处理后输出所述目标专利文本的分类号确定结果。利用本申请实施例提供的实现方式，可以利用构建的类均衡数据集训练识别神经网络。根据待识别分类号的所述目标专利文本的输入文本，利用训练好的所述识别神经网络，识别出所述目标专利文本的分类号。从而有效提高分类号识别的效率和准确度，降低人力成本。权利要求书2页说明书11页附图4页 CN 114461801 A 2022.05.10 CN 114461801 A 1.一种专利文本分类号识别方法，其特征在于，所述方法包括：获取目标专利文本对应的输入文本；将所述输入文本输入识别神经网络，经所述识别神经网络处理后输出所述目标专利文本的分类号确定结果。 2.根据权利要求1所述的方法，其特征在于，所述识别神经网络包括语义特征提取神经网络、长程依赖关系捕获神经网络以及分类神经网络，所述将所述输入文本输入识别神经网络，经所述识别神经网络处理后输出所述目标专利文本的分类号确定结果包括：将所述输入文本输入所述语义特征提取神经网络，经所述语义特征提取神经网络处理后输出字向量和句向量；将所述字向量和所述句向量输入所述长程依赖关系捕获神经网络，经所述长程依赖关系捕获神经网络处理后输出残差特征向量；将所述残差特征向量输入所述分类神经网络，经所述分类神经网络处理后，得到所述分类号确定结果。 3.根据权利要求1所述的方法，其特征在于，所述获取目标专利文本对应的输入文本包括：对所述目标专利文本的特定子文本进行预处理，得到所述输入文本。 4.根据权利要求3所述的方法，其特征在于，所述特定子文本包括所述目标专利文本的标题文本、摘要文本、权利要求文本，所述对所述目标专利文本的特定子文本进行预处理，得到所述输入文本包括：对所述权利要求文本进行数据清洗处理和关键词提取处理，得到所述权利要求文本对应的关键词文本；将所述关键词文本、所述标题文本、所述摘要文本合并，得到文本长度为固定值的所述输入文本。 5.根据权利要求2所述的方法，其特征在于，所述将所述残差特征向量输入分类神经网络，经所述分类神经网络处理后，得到所述分类号确定结果包括：将所述残差特征向量输入所述分类神经网络，经所述分类神经网络处理后输出所述目标专利文本归属于各分类号的概率值；将所述各分类号按照其对应的概率值从高到低进行排列，并将概率值排列在前N个的分类号确定为所述分类号确定结果，其中， N≥1。 6.根据权利要求5所述的方法，其特征在于，所述分类号包括小类号和小组号，所述各分类号的概率值包括各小类号的概率值和各小组号的概率值，所述N个分类号包括各小类号中按照其对应的概率值从高到低排在前M个的小类号和各小组号中按照其对应的概率值从高到低排在前L个的小组号，其中， M≥1， L≥1。 7.根据权利要求2所述的方法，其特征在于，所述语义特征提取神经网络包括Bert语义特征提取模型，所述长程依赖关系捕获神经网络包括双向长短记忆网络长程依赖关系捕获模型。 8.根据权利要求1所述的方法，其特征在于，所述识别神经网络为训练好的神经网络，所述识别神经网络的训练方式包括：构建专利文本训练样本集，所述专利文本训练样本集中每个专利文本样本对应一个或权　利　要　求　书 1/2 页 2 CN 114461801 A 2多个分类号标签；将所述专利文本训练样本集中的所述专利文本样本对应的输入文本输入所述识别神经网络，经所述识别神经网络处理输出预测的分类号确定结果；根据所述预测的分类号确定结果和所述样本对应的分类号标签，确定所述识别神经网络的处理结果的损失；向所述识别神经网络反向传播所述损失，以调整所述识别神经网络的网络参数。 9.根据权利要求8所述的方法，其特征在于，所述构建专利文本训练样本集的方式包括：根据原始数据中每个专利文本样本对应的分类号标签，得到分类号标签排序列表；遍历所述分类号标签排序列表，获取每个分类号标签对应的样本数量；若分类号标签对应的样本数量小于预设值，则将该分类号标签对应的样本按预设比例分配到所述专利文本训练样本集和专利文本测试样本集；若分类号标签对应的样本数量大于或等于所述预设值，则将该分类号标签对应的样本，填充第一固定数量至所述专利文本训练样本集，以及填充第二固定数量至所述专利文本测试样本集。 10.根据权利要求8或9所述的方法，其特征在于，所述分类号标签包括小组号和小类号。 11.一种专利文本分类号识别装置，其特征在于，所述装置包括：数据预处理模块，被配置为获取目标专利文件对应的输入文本；识别模块，被配置为将所述输入文本输入识别神经网络，经所述识别神经网络处理后输出所述目标专利文本的分类号确定结果。 12.根据权利要求1 1所述的装置，其特征在于，所述识别模块包括：语义特征提取单元，被配置为将所述输入文本输入语义特征提取神经网络，经所述语义特征提取神经网络处理后输出字向量和句向量；长程依赖关系捕获单元，被配置为将所述字向量和所述句向量输入长程依赖关系捕获神经网络，经所述长程依赖关系捕获神经网络处理后输出残差特征向量；分类单元，被配置为将所述残差特征向量输入分类神经网络，经所述分类神经网络处理后，得到所述分类号确定结果。 13.一种电子设备，其特征在于，包括：处理器；用于存储可执行指令的存储器；其中，所述处理器通过调用所述可执行指令实现如权利要求1至10中任意一项所述的方法。 14.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至10中任意一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114461801 A 3

专利 专利文本分类号识别方法、装置、电子设备及存储介质

专利专利文本分类号识别方法、装置、电子设备及存储介质