专利 基于水环境知识图谱增强关系的上下文参数中文实体预测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210026721.4 (22)申请日 2022.01.11 (71)申请人北京工业大学地址 100124 北京市朝阳区平乐园10 0号北京工业大学 (72)发明人毕敬　姜广　乔俊飞　 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称基于水环境知识图谱增强关系的上下文参数中文实体预测方法 (57)摘要本发明提出一种水环境知识图谱增强关系的上下文参数中文实体预测方法，该方法对水环境的非结构化的文本数据进行处理，构建实体和实体之间关系的三元组，并对构建的三元组信息进行知识推理。具体流程包括：首先，对水环境的文本数据进行预处理，用来抽取其实之间的关系；其次，对标记的文本数据词向量化，并对其起始位置信息编码，输入到双向长短期记忆网络模型中，识别出水环境文本中控制单元、气象站、水文站等实体信息；再次，将词向量输入到多元关系数据嵌入模型中，抽取命名实体之间的关系，构建实体之间关系的三元组集合；最后，根据三元组集合并通过增强关系上下文参数的权重来预测尾部命名实体，从而提升预测精度。权利要求书2页说明书5页附图2页 CN 114444507 A 2022.05.06 CN 114444507 A 1.一种基于水环境知识图谱增强关系的上下文参数中文实体预测方法，其特征在于，包括如下步骤：步骤1：对文本数据的预处理，使用序列标注模式(Begin Inside Outside End Single,BIOES)标注待处理的文本序列；步骤2：文本标注序列的命名实体的识别；步骤3：文本标注序列的命名实体之间关系的抽取；步骤4：命名实体关系上下文参数的生成；步骤5：根据命名实体识别的头部实体和命名实体关系生成的上下文参数预测命名实体识别的尾部实体。 2.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方法，其特征在于，步骤1中对中文文本数据进行处理，具体为：步骤1：进行BIOES的编码，将中文文本的每一行的数据的每一个汉字存入一个新的文件中，该文件中的每一行包含两个字段，第一个字段是一个汉字，这个汉字就是每一行句子中的每个汉字，第二个字段就是BIOES编码的标志，两个字段之间使用空格分割，句子和句子之间使用一个空行进行分割，表示一个句子的结束。在BIOES编码中，其中O表示无关重要的汉字， B表示要识别中文实体的开始汉字， I表示识别中文实体的中间汉字， E表示要识别中文实体的结束汉字， S表示可以单个汉字构成的中文实体；步骤2：根据文本进行汉字的词向量化，统计文本不同汉字的个数，指定使用的维度来表示一个汉字的词向量，将其传入模型中，生成汉字的词向量矩阵，词向量矩阵是计算机可以识别的数据输入。同时生成汉字到下标之间的字典映射，下标到汉字的字典映射，关系到下标的字典映射，下标到关系的字典映射，实体的关系是根据文本数据，人工指定的实体关系；步骤3：对文本中的每个句子生成新的文本，在每个句子后面添加新的字段，命名实体之间的关系，即头部实体、头部实体类别、头部实体在句子中出现的索引位置、尾部实体、尾部实体类别、尾部实体在句子中出现的索引位置，字段之间使用 “#”分割开。 3.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方法，其特征在于，步骤2具体为：对命名实体识别(Named Entities Recognition,NER)问题进行抽象建模，给定一个句子中汉字标识符集合w=(w1,w2,...,wN)， NER输出一个三元组＜Is,Ie,t＞的列表，列表中的每个三元组代表w中的一个命名实体。此处Is∈[1,N]， Ie∈[1,N]，分别表示为命名实体的起始索引以及结束索引； t指代从预定义类别中选择的实体类别。根据权利要求2中步骤1和步骤2所述方法，将构建文本词向量矩阵，批量读取BIOES编码后的文本数据中的编码标识以及在汉字到下标的字典中取出汉字对应的下标输入到模型中，识别出给定文本句子中的实体。 4.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方法，其特征在于，步骤3具体为：对命名实体关系抽取(Named Entities Relation Extraction,NRE)问题进行抽象建模，给定一个句子中汉字标识符集合w＝(w1,w2,...,wN)，将w词向量化后输入到模型中， NRE 输出一个三元组＜es,r,ee＞列表，列表中的每个三元组代表w中的一对命名实体之间的关权　利　要　求　书 1/2 页 2 CN 114444507 A 2系。此处es， ee分别表示为句子中头部命名实体和尾部命名实体； r指代从预定义类别中选择的实体之间关系类别。根据权利要求2中步骤3和权利要求3中所述方法，将权利要求2中步骤3中的每行记录中的关系字段去除掉，将构建文本词向量矩阵，批量读取BIOES编码后的文本数据中的编码标识以及在汉字到下标的字典中取出汉字对应的下标输入到多元关系数据嵌入 (Translation Embeddings for modeling multi‑relation data,Tran sE)模型中，识别出给定文本句子中的实体和实体之间的关系。 5.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方法，其特征在于，步骤4具体为：上下文参数生成模块是一个函数g，它接受一个关系r作为输入，并输出某个其他函数f 的参数θ， θ ＝g(r)。 6.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方法，其特征在于，步骤5具体为：根据权利要求3，权利要求4以及权利要求5中所述的方法，可以对嵌入上下文参数的中文实体关系推断进行建模，中文文本的卷积核图像的卷积不同，图像卷积特征的提取，卷积的方向有两个，一个是从左到右，一个是从上到下，文本的卷积的方向有一个就是从上到下，文本的词向量表示不能分割开来，借助知识图谱二维卷积词嵌入(Convolutional 2D knowledge graph Embedding,ConvE)模型的思想，将其中的二维卷积改成一维卷积1，对文本的特征进行提取， z＝Conv1D(Res ape(es))， es是输入的头部实体的词向量表示，对其进行维度形状变换，再进行1维卷积操作提取特征图。 θ＝g(r)，上下文参数生成模块是一个函数 g ，它接受一个关系 r 作为输入，并输出某个其他函数 f 的参数θ，经过函数fθ(z)计算，得出预测的尾部命名实体，再和权利要求5中所述抽取的实体三元组之间的关系进行对比，计算模型预测的精确度。权　利　要　求　书 2/2 页 3 CN 114444507 A 3

专利 基于水环境知识图谱增强关系的上下文参数中文实体预测方法

专利基于水环境知识图谱增强关系的上下文参数中文实体预测方法