文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211146784.X (22)申请日 2022.09.21 (71)申请人 北京融信数联科技有限公司 地址 100000 北京市海淀区上地信息路26 号10层10 04室 (72)发明人 张广志 成立立 于笑博 肖同尧 (74)专利代理 机构 北京沃杰永益知识产权代理 事务所(普通 合伙) 11905 专利代理师 杨杰 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/35(2019.01) (54)发明名称 基于子词级别适应器的多领域命名实体识 别方法和系统 (57)摘要 本发明提供一种基于子词级别适应器的多 领域命名实体识别方法和系统, 所述方法包括: 准备训练用的样本数据集, 样 本数据集的多个样 本数据分别来源于CrossNER中的五个领域, 对 CrossNER的样本数据进行遍历, 统计所有多义 词, 并进行修改样本数据集; 构建基于子词级别 适应器的实体标签预测模型; 分析出基于子词级 别适应器的实体标签预测模型的损失函数; 通过 样本数据集中的样本数据对实体标签预测模型 进行训练, 待训练结束后, 得到优化后的实体标 签预测模型; 获取待处理数据并将其输入优化后 的实体标签预测模型, 预测得到实体标签。 本发 明基于子词级别适应器将CrossNER中五个不同 领域的数据进行微调, 节省了训练时间和资源占 用, 解决领域之间语义冲突问题。 权利要求书2页 说明书6页 附图1页 CN 115238701 A 2022.10.25 CN 115238701 A 1.一种基于 子词级别适应 器的多领域命名实体识别方法, 其特 征在于, 所述方法包括: 准备训练用的样本数据集, 样本数据集的多个样本数据分别来源于CrossNER中的五个 领域, 对Cros sNER的样本数据进行遍历, 统计所有 多义词, 并进行修改样本数据集; 构建基于 子词级别适应 器的实体标签预测模型; 分析出基于子词级别适应 器的实体标签预测模型的损失函数; 通过样本数据集中的样本数据对实体标签预测模型进行训练, 待训练结束后, 得到优 化后的实体标签预测模型; 获取待处 理数据并将其输入 优化后的实体标签预测模型, 预测得到实体标签。 2.根据权利要求1所述的一种基于子词级别适应器的多领域命名实体识别方法, 其特 征在于, 修改样本数据集, 具体包括: 在每个样本数据中的每一个词后增加两个标记, 第 一标记为该词的来源领域, 记为1~ 5, 对应CrossNER的五个领域; 第二标记为该词是否为多义词, 用0和1标记, 0表示否定, 1表 示肯定。 3.根据权利要求2所述的一种基于子词级别适应器的多领域命名实体识别方法, 其特 征在于, 构建基于 子词级别适应 器的实体标签预测模型, 具体包括: 首先加载开源的BERT ‑base模型; 然后为CrossNER的五个不同领域初始化不同的领域适应器, 分别加载到12个注意力层 上; 最后准备子词级别开关和子词级别 任务适应器, 子词级别开关由softmax函数构成, 其 负责针对输入信息是否为多义词做判断; 判断为否的不传入子词级别任务适应器; 判断为 真的, 传入 对应的子词级别任务 适应器。 4.根据权利要求3所述的一种基于子词级别适应器的多领域命名实体识别方法, 其特 征在于, 所述损失函数由Cr ossNER的交叉熵损失和子词级别开关的交叉熵损失两部 分损失 相加得到, 损失函数的计算公式为: 其中, N表示标签类别的总数, i指的是标签类别的序号, j指的是标签类别下对应样本 数据的序号, 表示真实的实体标签, 表示实体标签预测为真的概 率。 5.根据权利要求1所述的一种基于子词级别适应器的多领域命名实体识别方法, 其特 征在于, 在训练过程中, 将训练用的样 本数据的最大句长 设置为256, 使用BERT ‑base模型的 单句模式进行训练; 每一个输入 经过BERT ‑base模型的切词器转换为子词, 每个子词继承整 个词的实体标签标注、 来源 领域、 是否为多义词的信息, 传 入输入层; 用于训练的GPU为两个 V100, 训练的批次数据为128, 训练数据迭代次数为30次; 持续传入输入数据, 直到训练结 束。 6.一种基于子词级别适应器的多领域命名实体识别系统, 其特征在于, 包括存储器和 处理器, 所述存储器中包括一种基于子词级别适应器的多领域命名实体识别方法程序, 所 述基于子词级别适应器的多领域命名实体识别方法程序被所述处理器执行时实现如下步权 利 要 求 书 1/2 页 2 CN 115238701 A 2骤: 准备训练用的样本数据集, 样本数据集的多个样本数据分别来源于CrossNER中的五个 领域, 对Cros sNER的样本数据进行遍历, 统计所有 多义词, 并进行修改样本数据集; 构建基于 子词级别适应 器的实体标签预测模型; 分析出基于子词级别适应 器的实体标签预测模型的损失函数; 通过样本数据集中的样本数据对实体标签预测模型进行训练, 待训练结束后, 得到优 化后的实体标签预测模型; 获取待处 理数据并将其输入 优化后的实体标签预测模型, 预测得到实体标签。 7.根据权利要求6所述的一种基于子词级别适应器的多领域命名实体识别系统, 其特 征在于, 修改样本数据集, 具体包括: 在每个样本数据中的每一个词后增加两个标记, 第 一标记为该词的来源领域, 记为1~ 5, 对应CrossNER的五个领域; 第二标记为该词是否为多义词, 用0和1标记, 0表示否定, 1表 示肯定。 8.根据权利要求7所述的一种基于子词级别适应器的多领域命名实体识别系统, 其特 征在于, 构建基于 子词级别适应 器的实体标签预测模型, 具体包括: 首先加载开源的BERT ‑base模型; 然后为CrossNER的五个不同领域初始化不同的领域适应器, 分别加载到12个注意力层 上; 最后准备子词级别开关和子词级别 任务适应器, 子词级别开关由softmax函数构成, 其 负责针对输入信息是否为多义词做判断; 判断为否的不传入子词级别任务适应器; 判断为 真的, 传入 对应的子词级别任务 适应器。 9.根据权利要求8所述的一种基于子词级别适应器的多领域命名实体识别系统, 其特 征在于, 所述损失函数由Cr ossNER的交叉熵损失和子词级别开关的交叉熵损失两部 分损失 相加得到, 损失函数的计算公式为: 其中, N表示标签类别的总数, i指的是标签类别的序号, j指的是标签类别下对应样本 数据的序号, 表示真实的实体标签, 表示实体标签预测为真的概 率。 10.根据权利要求6所述的一种基于子词 级别适应器的多领域命名实体识别系统, 其特 征在于, 在训练过程中, 将训练用的样 本数据的最大句长 设置为256, 使用BERT ‑base模型的 单句模式进行训练; 每一个输入 经过BERT ‑base模型的切词器转换为子词, 每个子词继承整 个词的实体标签标注、 来源 领域、 是否为多义词的信息, 传 入输入层; 用于训练的GPU为两个 V100, 训练的批次数据为128, 训练数据迭代次数为30次; 持续传入输入数据, 直到训练结 束。权 利 要 求 书 2/2 页 3 CN 115238701 A 3
专利 基于子词级别适应器的多领域命名实体识别方法和系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 02:14:14
上传分享
举报
下载
原文档
(419.7 KB)
分享
友情链接
T-ZNZ 189—2023 水产品中生物胺的测定 液相色谱-串联质谱法.pdf
GB-T 34178-2017 光掩模石英玻璃基板.pdf
数据备份与恢复管理规范.pdf
GB-T 3198-2020 铝及铝合金箔.pdf
GB-T 42473-2023 声学 噪声烦恼度的评价和预测方法.pdf
GB-T 38674-2020 信息安全技术 应用软件安全编程指南.pdf
OWASP 代码审计指南v2.0 中文版.pdf
T-CIITA 116—2021 PKS体系 数据备份与恢复产品技术要求.pdf
GB-T 33133.3-2021 信息安全技术 祖冲之序列密码算法 第3部分:完整性算法.pdf
GM-T 0091-2020 基于口令的密钥派生规范.pdf
GB-T 41540-2022 陆地遥感产品真实性检验地面观测场的选址和布设.pdf
GB-T 41787.1-2022 室内LED照明设备天花板安装接口 第1部分机械接口和电气接口规范.pdf
T-GCHA 1.4—2018 定制家居产品 人造板定制衣柜 第4部分:安装验收规范.pdf
T-ZMDS 70001—2022 数字化生产义齿.pdf
YD-T 4301-2023 量子保密通信网络架构.pdf
易制爆危险化学品治安管理办法.pdf
T-CSAE 284.2—2022 自动驾驶乘用车 线控底盘性能要求及试验方法 第2部分:制动系统.pdf
DB31-T 1309-2021 数据中心节能改造技术规范 上海市.pdf
GB-T 42409-2023 物联网 电子价签系统 总体要求.pdf
GB-T 33645-2017 钢、镍及镍合金的激光-电弧复合焊接工艺评定试验.pdf
1
/
3
10
评价文档
赞助2元 点击下载(419.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。