standard library
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210031254.4 (22)申请日 2022.01.12 (65)同一申请的已公布的文献号 申请公布号 CN 114510928 A (43)申请公布日 2022.05.17 (73)专利权人 中国科学院软件研究所 地址 100190 北京市海淀区中关村南四街 4 号 专利权人 北京百度网讯科技有限公司 (72)发明人 孙乐 陆垚杰 韩先培 林鸿宇  肖欣延 戴岱 郑佳  (74)专利代理 机构 北京君尚知识产权代理有限 公司 11200 专利代理师 李文涛(51)Int.Cl. G06F 40/253(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (56)对比文件 CN 111078825 A,2020.04.28 CN 113468433 A,2021.10.01 CN 108984683 A,2018.12.1 1 CN 106599032 A,2017.04.26 US 9830315 B1,2017.1 1.28 董旻等.De ep Web信息抽取研究. 《图书情 报 工作》 .20 07,第51卷(第10期),第25 -28页. 审查员 黄长霞 (54)发明名称 一种基于统一结构生成的通用信息抽取方 法及系统 (57)摘要 本发明提出一种基于统一结构生成的通用 信息抽取方法及系统, 属于自然语 言处理技术领 域, 采用通用的结构化抽取语言表达不同的抽取 结构, 该结构化语言包含不同的层次, 可 以表示 多种不同结构的信息抽取结果; 解码时通过结构 化框架抽取引导机制对特定的抽取需求进行建 模, 帮助模型快速泛化到特定任务; 利用不同的 任务对统一生成模型进行预训练, 并对预训练后 的模型进行微调, 提高统一 生成模型的性能。 权利要求书2页 说明书8页 附图1页 CN 114510928 B 2022.09.23 CN 114510928 B 1.一种基于统一结构生成的通用信息抽取 方法, 其特 征在于, 包括以下步骤: 构建结构抽取模式引导器, 该结构抽取模式引导器包含三种类型的文本片段: 信息片 段的类型名称、 关联关系的类型名称和语法符号, 该语法符号用于组合信息片段的类型名 称、 关联关系的类型名称和待抽取文本; 构建由编码器和解码器组成的统一生成模型, 该统一生成模型以待抽取文本与结构抽 取模式引导器拼接为输入, 通过编码器编码生成向量化表示, 再通过解码器预测生成统一 的结构化抽取语言表达式, 该结构化抽取语言表达式包含信息片段的类型名称、 关联关系 的类型名称、 信息片段和语法符号, 该语法符号用于表示信息片段到信息片段的类型名称 或关联关系的类型名称的映射; 通过结构映射任务、 结构语言模型任务和掩码语言模型任务对统一生成模型进行预训 练; 该结构映射任务使用由标记序列和结构化记录组成的文本结构平行数据, 训练模型学 习抽取能力和生成结构化抽取语言表达式的能力; 该结构 语言模型任务使用由结构化记录 组成的结构数据集, 训练模型学习生成结构化抽取语言表达式的能力; 该掩码语言模型任 务使用纯文本数据集训练模型保留文本级别语义的能力; 针对预训练后的统一生成模型, 根据预定的抽取数据集, 采用交叉熵函数对编码器和 解码器的参数进行微调; 在后续使用时, 利用微调后的统一生成模型处理与结构抽取模式引导器拼接的待抽取 文本, 生成统一的结构化抽取语言表达式, 再将该结构化抽取语言表达式转化为抽取后的 信息记录 。 2.如权利要求1所述的方法, 其特征在于, 结构映射任务在进行模型训练时, 为文本结 构平行数据中的每一个实例构造负模式, 该实例中存在的正模式为实例 中存在的抽取模 式, 构造的负模式为实例中不存在的抽取模式, 由负模式和正模式组成为训练用的样本; 利 用该样本训练 统一生成模型, 调节编码器和解码器的参数。 3.如权利要求1所述的方法, 其特征在于, 结构语言模型任务在进行模型训练时, 采用 自回归形式的交叉熵目标函数进行模型 学习, 调节解码器的参数。 4.如权利要求1所述的方法, 其特征在于, 掩码语言模型任务在进行模型训练时, 首先 对纯文本进行掩码破坏, 然后通过统一生成模型预测可补全的片段, 调节编码器和 解码器 的参数。 5.如权利要求1所述的方法, 其特征在于, 采用拒 绝识别的机制对预训练后的统一生成 模型进行微调, 即在训练过程中加入无法抽取 的噪声片段, 并在解码时过滤无法抽取 的噪 声片段。 6.一种基于统一结构生成的通用信息抽取系统, 其特 征在于, 包括: 结构抽取模式引导器, 包含三种类型的文本片段: 信息片段的类型名称、 关联关系的类 型名称和语法符号, 该语法符号用于组合信息片段 的类型名称、 关联关系的类型名称和待 抽取文本; 该 结构抽取模式引导器用于与待抽取文本拼接, 作为统一 生成模型的输入; 统一生成模型, 由编码器和解码器组成, 该编码器对待抽取文本与结构抽取模式引导 器拼接进 行编码, 生成向量化表示; 该解码 器对编码器的输出进 行预测, 生 成统一的结构化 抽取语言表达式, 再转化为抽取后的信息记录; 该结构化抽取语言表达式包含信息片段 的 类型名称、 关联关系的类型名称、 信息片段和语法符号, 该语法符号用于表示信息片段到信权 利 要 求 书 1/2 页 2 CN 114510928 B 2息片段的类型名称或关联关系的类型名称的映射; 其中, 通过结构映射任务、 结构语言模型任务和掩码语言模型任务对统一生成模型进 行预训练; 该结构映射任务使用由标记序列和结构化记录组成的文本结构平行数据, 训练 模型学习抽取能力和生成结构化抽取语言表达式的能力; 该结构语言模型任务使用由结构 化记录组成的结构数据集, 训练模型学习生成结构化抽取语言表达式的能力; 该掩码语言 模型任务使用纯文本数据集训练模型保留文本级别语义的能力; 针对预训练后的统一生成 模型, 根据预定的抽取 数据集, 采用交叉熵函数对编码器和解码器的参数进行微调。 7.如权利要求6所述的系统, 其特征在于, 结构映射任务在进行模型训练时, 为文本结 构平行数据中的每一个实例构造负模式, 该实例中存在的正模式为实例 中存在的抽取模 式, 构造的负模式为实例中不存在的抽取模式, 由负模式和正模式组成为训练用的样本; 利 用该样本训练 统一生成模型, 调节编码器和解码器的参数。 8.如权利要求6所述的系统, 其特征在于, 结构语言模型任务在进行模型训练时, 采用 自回归形式的交叉熵目标函数进行模型 学习, 调节解码器的参数。 9.如权利要求6所述的系统, 其特征在于, 掩码语言模型任务在进行模型训练时, 首先 对纯文本进行掩码破坏, 然后通过统一生成模型预测可补全的片段, 调节编码器和 解码器 的参数。 10.如权利要求6所述的系统, 其特征在于, 采用拒绝识别的机制对预训练后的统一生 成模型进行微调, 即在训练过程中加入无法抽取 的噪声片段, 并在解码时过滤无法抽取 的 噪声片段。权 利 要 求 书 2/2 页 3 CN 114510928 B 3

PDF文档 专利 一种基于统一结构生成的通用信息抽取方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于统一结构生成的通用信息抽取方法及系统 第 1 页 专利 一种基于统一结构生成的通用信息抽取方法及系统 第 2 页 专利 一种基于统一结构生成的通用信息抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。