专利 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210052780.9 (22)申请日 2022.01.18 (71)申请人北京工业大学地址 100124 北京市朝阳区平乐园10 0号 (72)发明人夏晓明　王洁　 (74)专利代理机构北京思海天达知识产权代理有限公司 1 1203 专利代理师沈波 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 (57)摘要本发明公开了基于机器阅读理解的BiLSTM ‑ BiDAF命名实体识别方法，首先，为了充分挖掘文本的上下文特征，使用NEZHA获取全文语境信息，并进一步通过BiLSTM提取局部特征，以加强模型对局部依赖信息的捕获能力。其次，引入双向注意力机制学习文本与实体类别之间的语义关联。最后，设计基于门控机制的边界检测器加强实体边界的相关关系，预测出实体在文本中的位置，同时通过建立答案数量检测器，将无答案问题识别出来。本发明在CCKS2020中文电子病历和 CMeEE数据集上进行了实验，结果表明本发明构建的模型能有效识别文本中的命名实体。权利要求书3页说明书10页附图3页 CN 114492441 A 2022.05.13 CN 114492441 A 1.基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法，其特征在于：该方法包括以下步骤：步骤1：根据文本所要识别的实体类别构建包含语义先验信息的实体类别查询语句，通过数据预处理将数据集构建为符合机器阅读理解框架输入的形式，每条数据包含文本，实体类别查询语句和该类型实体在文本中的起止位置；步骤2：对文本的语义信息和问题中包含的先验信息进行特征提取；使用NEZHA预训练语言模型作为嵌入层对文本和问题进行全局特征提取，得到文本和问题的字符嵌入向量；并通过Bi LSTM分别对文本和问题的字符嵌入向量进一步提取局部特征；步骤3：使用双向注意力机制学习文本和实体类别之间的语义关联；计算文本和问题的相似度矩阵，并基于相似度矩阵计算文本对问题的注意表示向量和问题对文本的注意表示向量，将文本与实体类别的语义先验信息充分融合后一起输入到答案预测层；步骤4：预测实体在文本中的位置；将步骤3得到的交互融合向量使用半指针半标注策略逐位置计算是否为实体起始位置的概率；考虑到实体开始位置对结束位置的约束，设计基于门控机制的边界检测器，动态融合起始位置概率分布与交互融合向量，使得模型对结束位置的预测更加准确；将两个计算实体起止位置概率的分类器结果通过索引顺序就近匹配，从而标注出实体的具体位置；步骤5：为了降低模型在文本中不包含某些实体类别时的抽取错误，建立答案数量检测器，将无答案问题识别出来；使用预测出的实体起止位置概率与交互融合向量计算加权文本表示，并与预训练语言模型中的[CLS]特殊标记进行拼接，训练分类器，对无答案问题进行有效识别。 2.根据权利要求1所述的基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法，其特征在于：步骤1中，将命名实体识别任务转化为机器阅读理解问题；根据文本所要识别的实体类型构建包含语义先验信息的查询语句，通过数据预处理构建符合机器阅读理解框架的输入形式；在构建实体类别查询语句时，集成了实体类型的相关描述和简单的例子。 3.根据权利要求1所述的基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法，其特征在于：步骤2中，使用NEZHA预训练语言模型作为嵌入层，对文本的语义信息和问题中包含的先验信息进行全局特征提取；为了学习文本中不同句子间的内在相关性，增强模型对文本上下文语义信息的表示能力，使用NEZHA预训练语言模型作为嵌入层对文本和问题进行全局特征提取，得到文本和问题的字符嵌入向量； NEZHA预训练语言模型作为嵌入层对文本和问题进行字符嵌入编码；设X＝{c1,c2,…, cn}为给定的一段文本， n为文本的长度， Qy＝{q1,q2,…,qm}为基于这段文本内容构造的实体类别查询语句，其中， Y为实体类别的集合， Qy表示一个预定义的y∈ Y的问题查询， qi表示第i 个字符， m为问题的长度；将文本构造的用于实体识别的查询语句Qy＝{q1,q2,…,qm}和文本 X＝{c1,c2,…,cn}作为输入，使用特定的分类标记[CLS]和分隔标记[SEP]，将问句和文本以顺序串联的方式拼接成如下输入序列： I＝{[CLS]； Q； [ SEP]； X； [ SEP]} 经过NEZHA预训练语言模型进行编码得到最终的文本向量表示X＝{c1,c2,…,cn}，问题向量表示 Q＝{q1,q2,…,qm}。 4.根据权利要求1所述的基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法，其特权　利　要　求　书 1/3 页 2 CN 114492441 A 2征在于：步骤3中，通过BiLSTM分别对文本和问题的字符嵌入向量提取局部特征，缓解预训练语言模型对于局部依赖信息捕获能力不足的问题；通过使用嵌入层，模型能够获取文本的全局语义信息，而对于命名实体识别任务来说，考虑到字符前后序列对当前字符的影响也十分重要；为了有效获取字符在句子内依赖的上下文信息，使用双向长短时记忆网络BiLSTM分别对文本和问题字符嵌入向量进行编码，通过给邻近词分配更大的权重，提升模型对文本局部特征的捕获能力，进一步赋予每个字更丰富的上下文信息；使用BiLSTM可以缓解预训练语言模型对于局部依赖信息捕获能力不足的问题；通过嵌入层和编码层两部分内容，使得模型既能实现对文本全局语义信息的提取，又能充分捕获到文本的局部依赖信息，提升模型对文本的语义表示能力。 5.根据权利要求1所述的基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法，其特征在于：步骤4中，使用双向注意力机制学习文本和实体类别之间的语义关联；计算文本和问题的相似度矩阵，并基于相似度矩阵计算文本对问题的注意表示向量和问题对文本的注意表示向量，将文本与实体类别的语义先验信息充分融合后一起输入到答案预测层；实体类别查询语句中包含着丰富的实体先验信息，为了充分学习文本和实体类别之间的语义关联，引入双向注意力机制；通过文本对问题的注意力，使文本与问题中所包含的先验信息充分融合，通过问题对文本的注意力，使问题关注到文本中与该类别相关的关键信息。 6.根据权利要求1所述的基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法，其特征在于：步骤5中，对实体在文本中的位置进行预测；通过动态融合模型预测的起始位置概率分布与交互层得到的融合向量，充分考虑到实体起止位置的时序关系和逻辑关系，使得模型对结束位置的预测更加准确；首先，将步骤4得到的交互向量G使用半指针半标注策略逐位置计算是否为答案起始位置的概率分布；然后，设计基于门控机制的边界检测器，控制起始位置概率分布与交互融合向量二者进行有机结合，之后逐位置计算每个字符为终止位置的概率分布，通过使用 sigmoid激活函数对答案预测层中起始位置的预测结果计算而来，进而控制起始位置与交互向量G二者的融合程度；将答案起止位置两个分类器的结果通过索引顺序就近匹配，从而标注出实体的具体位置。 7.根据权利要求1所述的基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法，其特征在于：为了降低模型在文本中不包含某些实体类别时的抽取错误，建立答案数量检测器，将无答案问题识别出来；建立答案数量检测器，使用答案起止位置的概率分布计算加权后的文本表示，并与步骤2得到的[CLS]语境化表示向量进行拼接，将无法回答的问题识别出来。 8.根据权利要求1所述的基于机器阅读理解的BiLSTM ‑BiDAF命名实体识别方法，其特征在于：设计l oss函数，加强实体分类准确度： Lstart＝CE(Pstart,Ystart) Lend＝CE(Pend,Yend) Lanswer＝CE(Panswer,Yanswer) L＝α·Lanswer+β·Lstart+γ·Lend α, β,γ∈[0,1]权　利　要　求　书 2/3 页 3 CN 114492441 A 3

专利 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法

专利基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法