(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211146784.X (22)申请日 2022.09.21 (71)申请人 北京融信数联科技有限公司 地址 100000 北京市海淀区上地信息路26 号10层10 04室 (72)发明人 张广志 成立立 于笑博 肖同尧  (74)专利代理 机构 北京沃杰永益知识产权代理 事务所(普通 合伙) 11905 专利代理师 杨杰 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/35(2019.01) (54)发明名称 基于子词级别适应器的多领域命名实体识 别方法和系统 (57)摘要 本发明提供一种基于子词级别适应器的多 领域命名实体识别方法和系统, 所述方法包括: 准备训练用的样本数据集, 样 本数据集的多个样 本数据分别来源于CrossNER中的五个领域, 对 CrossNER的样本数据进行遍历, 统计所有多义 词, 并进行修改样本数据集; 构建基于子词级别 适应器的实体标签预测模型; 分析出基于子词级 别适应器的实体标签预测模型的损失函数; 通过 样本数据集中的样本数据对实体标签预测模型 进行训练, 待训练结束后, 得到优化后的实体标 签预测模型; 获取待处理数据并将其输入优化后 的实体标签预测模型, 预测得到实体标签。 本发 明基于子词级别适应器将CrossNER中五个不同 领域的数据进行微调, 节省了训练时间和资源占 用, 解决领域之间语义冲突问题。 权利要求书2页 说明书6页 附图1页 CN 115238701 A 2022.10.25 CN 115238701 A 1.一种基于 子词级别适应 器的多领域命名实体识别方法, 其特 征在于, 所述方法包括: 准备训练用的样本数据集, 样本数据集的多个样本数据分别来源于CrossNER中的五个 领域, 对Cros sNER的样本数据进行遍历, 统计所有 多义词, 并进行修改样本数据集; 构建基于 子词级别适应 器的实体标签预测模型; 分析出基于子词级别适应 器的实体标签预测模型的损失函数; 通过样本数据集中的样本数据对实体标签预测模型进行训练, 待训练结束后, 得到优 化后的实体标签预测模型; 获取待处 理数据并将其输入 优化后的实体标签预测模型, 预测得到实体标签。 2.根据权利要求1所述的一种基于子词级别适应器的多领域命名实体识别方法, 其特 征在于, 修改样本数据集, 具体包括: 在每个样本数据中的每一个词后增加两个标记, 第 一标记为该词的来源领域, 记为1~ 5, 对应CrossNER的五个领域; 第二标记为该词是否为多义词, 用0和1标记, 0表示否定, 1表 示肯定。 3.根据权利要求2所述的一种基于子词级别适应器的多领域命名实体识别方法, 其特 征在于, 构建基于 子词级别适应 器的实体标签预测模型, 具体包括: 首先加载开源的BERT ‑base模型; 然后为CrossNER的五个不同领域初始化不同的领域适应器, 分别加载到12个注意力层 上; 最后准备子词级别开关和子词级别 任务适应器, 子词级别开关由softmax函数构成, 其 负责针对输入信息是否为多义词做判断; 判断为否的不传入子词级别任务适应器; 判断为 真的, 传入 对应的子词级别任务 适应器。 4.根据权利要求3所述的一种基于子词级别适应器的多领域命名实体识别方法, 其特 征在于, 所述损失函数由Cr ossNER的交叉熵损失和子词级别开关的交叉熵损失两部 分损失 相加得到, 损失函数的计算公式为: 其中, N表示标签类别的总数, i指的是标签类别的序号, j指的是标签类别下对应样本 数据的序号, 表示真实的实体标签, 表示实体标签预测为真的概 率。 5.根据权利要求1所述的一种基于子词级别适应器的多领域命名实体识别方法, 其特 征在于, 在训练过程中, 将训练用的样 本数据的最大句长 设置为256, 使用BERT ‑base模型的 单句模式进行训练; 每一个输入 经过BERT ‑base模型的切词器转换为子词, 每个子词继承整 个词的实体标签标注、 来源 领域、 是否为多义词的信息, 传 入输入层; 用于训练的GPU为两个 V100, 训练的批次数据为128, 训练数据迭代次数为30次; 持续传入输入数据, 直到训练结 束。 6.一种基于子词级别适应器的多领域命名实体识别系统, 其特征在于, 包括存储器和 处理器, 所述存储器中包括一种基于子词级别适应器的多领域命名实体识别方法程序, 所 述基于子词级别适应器的多领域命名实体识别方法程序被所述处理器执行时实现如下步权 利 要 求 书 1/2 页 2 CN 115238701 A 2骤: 准备训练用的样本数据集, 样本数据集的多个样本数据分别来源于CrossNER中的五个 领域, 对Cros sNER的样本数据进行遍历, 统计所有 多义词, 并进行修改样本数据集; 构建基于 子词级别适应 器的实体标签预测模型; 分析出基于子词级别适应 器的实体标签预测模型的损失函数; 通过样本数据集中的样本数据对实体标签预测模型进行训练, 待训练结束后, 得到优 化后的实体标签预测模型; 获取待处 理数据并将其输入 优化后的实体标签预测模型, 预测得到实体标签。 7.根据权利要求6所述的一种基于子词级别适应器的多领域命名实体识别系统, 其特 征在于, 修改样本数据集, 具体包括: 在每个样本数据中的每一个词后增加两个标记, 第 一标记为该词的来源领域, 记为1~ 5, 对应CrossNER的五个领域; 第二标记为该词是否为多义词, 用0和1标记, 0表示否定, 1表 示肯定。 8.根据权利要求7所述的一种基于子词级别适应器的多领域命名实体识别系统, 其特 征在于, 构建基于 子词级别适应 器的实体标签预测模型, 具体包括: 首先加载开源的BERT ‑base模型; 然后为CrossNER的五个不同领域初始化不同的领域适应器, 分别加载到12个注意力层 上; 最后准备子词级别开关和子词级别 任务适应器, 子词级别开关由softmax函数构成, 其 负责针对输入信息是否为多义词做判断; 判断为否的不传入子词级别任务适应器; 判断为 真的, 传入 对应的子词级别任务 适应器。 9.根据权利要求8所述的一种基于子词级别适应器的多领域命名实体识别系统, 其特 征在于, 所述损失函数由Cr ossNER的交叉熵损失和子词级别开关的交叉熵损失两部 分损失 相加得到, 损失函数的计算公式为: 其中, N表示标签类别的总数, i指的是标签类别的序号, j指的是标签类别下对应样本 数据的序号, 表示真实的实体标签, 表示实体标签预测为真的概 率。 10.根据权利要求6所述的一种基于子词 级别适应器的多领域命名实体识别系统, 其特 征在于, 在训练过程中, 将训练用的样 本数据的最大句长 设置为256, 使用BERT ‑base模型的 单句模式进行训练; 每一个输入 经过BERT ‑base模型的切词器转换为子词, 每个子词继承整 个词的实体标签标注、 来源 领域、 是否为多义词的信息, 传 入输入层; 用于训练的GPU为两个 V100, 训练的批次数据为128, 训练数据迭代次数为30次; 持续传入输入数据, 直到训练结 束。权 利 要 求 书 2/2 页 3 CN 115238701 A 3

.PDF文档 专利 基于子词级别适应器的多领域命名实体识别方法和系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于子词级别适应器的多领域命名实体识别方法和系统 第 1 页 专利 基于子词级别适应器的多领域命名实体识别方法和系统 第 2 页 专利 基于子词级别适应器的多领域命名实体识别方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:14:14上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。