(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211259420.2
(22)申请日 2022.10.14
(71)申请人 昆明理工大 学
地址 650500 云南省昆明市呈贡区景明南
路727号
(72)发明人 彭煜栋 刘孝保 刘浩宇 杨林
(74)专利代理 机构 天津三元专利商标代理有限
责任公司 12 203
专利代理师 胡畹华
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/242(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种融合领域词典的中文农作物病虫害命
名实体识别方法
(57)摘要
本发明公开了一种融合领域词典的中文农
作物病虫害命名实体识别方法, 包括步骤1: 建立
农作物病虫害命名实体识别的语料库; 步骤2: 对
语料进行预处理获得数据集并进行标注; 步骤3:
利用ALBERT预训练语言模型进行训练; 步骤4: 将
ALBERT预训练模型的输 出进行对抗训练, 生成对
抗样本; 步骤5: 得到的文本向量通过BiLS TM层提
取上下文特征; 步骤6: 再结合CRF层得到农作物
病虫害命名实体识别的最优 标注序列; 步骤7: 最
后辅以自构建的小规模领域词典对遗漏、 错误识
别实体加以校正。 本发明解决了农作物病虫害领
域命名实体识别过程中存在的上下文语义特征
获取不充分、 实体构造较复杂、 通用模型迁移效
果差的问题。
权利要求书2页 说明书7页 附图3页
CN 115510864 A
2022.12.23
CN 115510864 A
1.一种融合领域词典的中文农作物病虫害命名实体识别方法, 其特征在于, 包括以下
步骤:
步骤1: 获取网络中有关农作物病虫害的语料, 对语料进行预处理, 之后将得到的数据
集进行标注, 再将数据集划分为训练集和 测试集;
步骤2: 利用ALBERT预训练模型获得初始化字向量并利用对抗训练生成对抗样本;
步骤3: 将步骤2中得到的向量与对抗样本 输入到Bi LSTM层提取 上下文特征;
步骤4: 将步骤3得到的结果输入到 CRF层得到最优标注序列;
步骤5: 构建小规模农作物病虫害领域词典, 对步骤4得到的结果校正处理, 得到最终结
果。
2.根据权利要求1所述的融合领域词典的中文农作物病虫害命名实体识别方法, 其特
征在于, 步骤1中, 删除农作 物病虫害文本语料中重复和不相关的内容, 去除文本中的空格、
空行, 接着对 数据进行标注, 选择使用YEDDA标注工具对 数据进行标注, 采用BIO标注格式对
作物名称、 病害名称、 虫害名称、 病原、 防治药剂五类实体进 行标注, 其中B表 示实体名起点,
I表示实体内部, O表示非 实体, 再将数据集划分为训练集和 测试集。
3.根据权利要求1所述的融合领域词典的中文农作物病虫害命名实体识别方法, 其特
征在于, 步骤2 中, 所述ALBERT预训练语言模型语义理解能力强、 参数量少、 训练速度快, 能
很好的学习文本特 征, 提高向量的表征能力。
4.根据权利要求1所述的融合领域词典的中文农作物病虫害命名实体识别方法, 其特
征在于, 所述对抗训练通过对ALBERT层预训练模型输出 的字向量Xc=(f1,f2,K,fn)添加扰
动, 对该字向量添加扰动因子radv,计算公式为:
式中g(Xc)为梯度, ε为超参数的小有界范数, θ为模型参数, y为标签信息, L(Xc,y, θ )为
损失函数, 得到对抗样本A:
A=Xc+radv
对抗样本能模拟标签中数据集的自然误差, 让模型去适应参数变化带来的波动影响,
因而可提升模型的鲁棒 性, 对抗样本生成后与原 始生成的词向量同时送入Bi LSTM层训练。
5.根据权利要求1所述的融合领域词典的中文农作物病虫害命名实体识别方法, 其特
征在于, 所述BiLSTM是指正反向长短期记忆网络, BiLSTM网络能有效利用文本长距离语义,
更多地挖掘语义特 征, 计算公式如下 所示:
ft=σ(Wf[ht‑1,xt]+bf)
it=σ(Wi[ht‑1,xt]+bi)
ot=σ(Wo[ht‑1,xt]+bo)
ht=ot×tanh(Ct)权 利 要 求 书 1/2 页
2
CN 115510864 A
2其中, σ 代表sigmod激活函数; tanh表示tan激活函数, 用于将值规范到 ‑1和1之间; ft、
it、 Ct、 ot分别为在t时刻遗忘门、 输入门、 细胞状态和输出门计算公式; ht‑1表示前一时刻的
隐藏层状态, xt表示当前时刻的输入词,
表示临时细胞状态。
6.根据权利要求1所述的融合领域词典的中文农作物病虫害命名实体识别方法, 其特
征在于, 步骤4中, CRF层的加入有助于避免标签顺序错误问题, 从全局获取最优序列, 设输
入序列X=(x1,x2,...,xn), 预测序列Y=(y1,y2,...,yn), 输入数据为从BiLSTM层的特征向
量, 得到输出矩阵P=(P1,P2,...,Pn), 该预测序列得分公式为:
式中
表示从标签yi到标签yi+1输出概率,
表示语句中字符被预测为标签yi的概
率, 在训练中利用最大似然估计 计算得到最大概 率序列:
最终运用softmax函数, 计算出所有可能出现的标签概率, 通过维特比(Viterbi)算法
解码, 输出 得到最优序列, y*表示最大概率的标签序列:
7.根据权利要求1所述的融合领域词典的中文农作物病虫害命名实体识别方法, 其特
征在于, 步骤5中, 所述自构建领域词典对步骤4得到的结果中未被网络模型识别出的实体
进行校正, 依凭该词典对模型结果进行校正提升, 未被该模型识别出 的实体划分为两类情
况进行处 理, 具体处 理方法如下:
(1)第一类: 取标注结果S中所有的实体, 形 成实体集Tn=(t1,t2,K,tn), 实体集中的实体
遍历领域词典D中的每一个实体e, 以编辑距离计算实体集Tn=(t1,t2,K,tn)与词典中实体e
的相似度, 编辑距离指从一个以字为单位的词转变为另一个以字为单位的词所需的最小编
辑距离, 即对字符串某一位置的单个字符进行插入、 删除、 替换的操作, 基于编辑距离的计
算两个字符串之间的相似度公式如下 所示:
式中ED为实体集中实体的字符串与词典中实体 e的字符串之间的编辑距离; l1为实体集
中实体的字符串长度, l2为词典中实体e的字符串长度, 两字符串之间的ED距离越小, 相似
度越大, 设置合适的阈值, 若两者相似度较高, 则替换模型识别出 的结果, 防止出现模型识
别出现标注错 误的情况;
(2)第二类: 将模型识别输出的未标注序列提出, 即标注的 “O”编码语句, 对其采用
jieba分词处理, 分词后与领域词典D进行匹配, 若与词典中实体相同则补充相应类别的实
体标签, 第一类与第二类情况处 理后的结果 合并, 得到校正后的最终序列。权 利 要 求 书 2/2 页
3
CN 115510864 A
3
专利 一种融合领域词典的中文农作物病虫害命名实体识别方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:38上传分享