(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210052780.9
(22)申请日 2022.01.18
(71)申请人 北京工业大 学
地址 100124 北京市朝阳区平乐园10 0号
(72)发明人 夏晓明 王洁
(74)专利代理 机构 北京思海天达知识产权代理
有限公司 1 1203
专利代理师 沈波
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
(54)发明名称
基于机器阅读理解的BiLSTM-BiDAF命名实
体识别方法
(57)摘要
本发明公开了基于机器阅读理解的BiLSTM ‑
BiDAF命名实体识别方法, 首先, 为了充分挖掘文
本的上下文特征, 使用NEZHA获取全文语境信息,
并进一步通过BiLSTM提取局部 特征, 以加强模型
对局部依赖信息的捕获能力。 其次, 引入双向注
意力机制学习文本与实体类别之间的语义关联。
最后, 设计基于门控机制的边界检测器加强实体
边界的相关关系, 预测出实体在文本中的位置,
同时通过建立答案数量检测器, 将无答案问题识
别出来。 本发明在CCKS2020中文电子病历和
CMeEE数据集上进行了实验, 结果表明本发明构
建的模型能有效识别文本中的命名实体 。
权利要求书3页 说明书10页 附图3页
CN 114492441 A
2022.05.13
CN 114492441 A
1.基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法, 其特征在于: 该方法包括以
下步骤:
步骤1: 根据文本所要识别的实体类别构建包含语义先验信 息的实体类别查询语句, 通
过数据预处理将数据集构建为符合机器阅读理解框架输入的形式, 每条数据包含文本, 实
体类别查询语句和该类型实体在文本中的起止位置;
步骤2: 对文本的语义信息和问题中包含的先验信息进行特征提取; 使用NEZHA预训练
语言模型作为嵌入层对文本和问题进行全局特征提取, 得到文本和问题的字符嵌入向量;
并通过Bi LSTM分别对文本和问题的字符嵌入向量进一 步提取局部特 征;
步骤3: 使用双向注意力 机制学习 文本和实体类别之间的语义关联; 计算文本和问题的
相似度矩阵, 并基于相似度矩阵计算文本对问题的注意表示向量和问题对文本的注意表示
向量, 将文本与实体 类别的语义先验信息充分融合后一 起输入到答案预测层;
步骤4: 预测实体在文本中的位置; 将步骤3得到的交互融合向量使用半指针半标注策
略逐位置计算是否为实体起始位置的概率; 考虑到实体开始位置对结束位置的约束, 设计
基于门控机制的边界检测器, 动态融合起始位置概率分布与交互融合向量, 使得模型对结
束位置的预测更加准确; 将两个计算 实体起止位置概率的分类器结果通过索引顺序就近匹
配, 从而标注出实体的具体位置;
步骤5: 为了降低模型在文本 中不包含某些实体类别时的抽取错误, 建立答案数量检测
器, 将无答案 问题识别出来; 使用预测出 的实体起止位置概率与交互融合向量计算加权文
本表示, 并与预训练语言模型中的[CLS]特殊标记进行拼接, 训练分类器, 对无答案问题进
行有效识别。
2.根据权利要求1所述的基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法, 其特
征在于: 步骤1中, 将命名实体识别任务转化为机器阅读理解问题; 根据文本所要识别的实
体类型构建包含语义先验信息的查询语句, 通过数据预处理构建符合机器阅读理解框架的
输入形式; 在构建实体 类别查询语句时, 集成了实体 类型的相关描述和简单的例子 。
3.根据权利要求1所述的基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法, 其特
征在于: 步骤2中, 使用NEZHA预训练语言模 型作为嵌入层, 对文本的语义信息和问题中包含
的先验信息进行全局特征提取; 为了学习文本中不同句 子间的内在相关性, 增强模型对文
本上下文语义信息的表示能力, 使用NEZHA预训练语言模型作为嵌入层对文本和问题进行
全局特征提取, 得到文本和问题的字符嵌入向量;
NEZHA预训练语言模型作为嵌入层对文本和问题进行字符嵌入编码; 设X={c1,c2,…,
cn}为给定的一 段文本, n为文本的长度, Qy={q1,q2,…,qm}为基于这 段文本内容构造的实体
类别查询语句, 其中, Y为实体类别的集合, Qy表示一个预定义的y∈ Y的问题查询, qi表示第i
个字符, m为问题的长度; 将文本构造的用于实体识别的查询语句Qy={q1,q2,…,qm}和文本
X={c1,c2,…,cn}作为输入, 使用特定的分类标记[CLS]和分 隔标记[SEP], 将问句和文本以
顺序串联的方式拼接成如下输入序列:
I={[CLS]; Q; [ SEP]; X; [ SEP]}
经过NEZHA预训练语言模型进行编码得到最终的文本向量表示X={c1,c2,…,cn}, 问题
向量表示 Q={q1,q2,…,qm}。
4.根据权利要求1所述的基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法, 其特权 利 要 求 书 1/3 页
2
CN 114492441 A
2征在于: 步骤3中, 通过BiLSTM分别对文本和问题的字符嵌入向量提取局 部特征, 缓解预训
练语言模型对于局部依赖信息捕获能力不足的问题;
通过使用嵌入层, 模型能够获取文本的全局语义信息, 而对于命名实体识别任务来说,
考虑到字符前后序列对当前字符的影响也十分重要; 为了有效获取字符在句子内依赖的上
下文信息, 使用双向长短时记忆网络BiLSTM分别对文本和问题字符嵌入向量进行编码, 通
过给邻近词分配更大 的权重, 提升模型对文本局部特征 的捕获能力, 进一步赋予每个字更
丰富的上 下文信息;
使用BiLSTM可以缓解预训练语言模型对于局部依赖信息捕获能力不足的问题; 通过嵌
入层和编码层两部分内容, 使得模型既能实现对文本全局语义信息的提取, 又能充分捕获
到文本的局部依赖信息, 提升模型对文本的语义表示能力。
5.根据权利要求1所述的基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法, 其特
征在于: 步骤4中, 使用双向注意力机制学习文本和实体类别之间的语义关联; 计算文本和
问题的相似度 矩阵, 并基于相似度矩阵计算文本对问题的注意表示向量和问题对文本的注
意表示向量, 将文本与实体 类别的语义先验信息充分融合后一 起输入到答案预测层;
实体类别查询语句中包含着丰富的实体先验信 息, 为了充分学习 文本和实体类别之间
的语义关联, 引入双向注意力机制; 通过文本对问题的注意力, 使文本与问题中所包含的先
验信息充分融合, 通过问题对文本的注意力, 使问题关注到文本中与该类别相关的关键信
息。
6.根据权利要求1所述的基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法, 其特
征在于: 步骤5中, 对实体在文本中的位置进行预测; 通过动态融合模型预测的起始位置概
率分布与交互层得到的融合向量, 充分考虑到实体起止位置的时序关系和逻辑关系, 使得
模型对结束位置的预测更加准确;
首先, 将步骤4得到的交互向量G使用半指针半标注策略逐位置计算是否为答案起始位
置的概率分布; 然后, 设计基于门控机制的边界检测器, 控制起始位置概率分布与交互融合
向量二者进行有机结合, 之后逐位置计算每个字符为终止位置的概率分布, 通过使用
sigmoid激活函数对答案预测层中起始位置的预测结果计算而来, 进而控制起始位置与交
互向量G二者的融合程度; 将答案起止位置两个分类器的结果通过索引顺序就近匹配, 从而
标注出实体的具体位置 。
7.根据权利要求1所述的基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法, 其特
征在于: 为了降低模 型在文本中不包含某些实体类别时的抽取错误, 建立答案数量检测器,
将无答案 问题识别出来; 建立答案数量检测器, 使用答案起止位置的概率分布计算加权后
的文本表示, 并与步骤2得到的[CLS]语境化表示向量进行拼接, 将无法回答的问题识别 出
来。
8.根据权利要求1所述的基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法, 其特
征在于: 设计l oss函数, 加强 实体分类准确度:
Lstart=CE(Pstart,Ystart)
Lend=CE(Pend,Yend)
Lanswer=CE(Panswer,Yanswer)
L=α·Lanswer+β·Lstart+γ·Lend α, β,γ∈[0,1]权 利 要 求 书 2/3 页
3
CN 114492441 A
3
专利 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:52上传分享