(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210026721.4
(22)申请日 2022.01.11
(71)申请人 北京工业大 学
地址 100124 北京市朝阳区平乐园10 0号北
京工业大 学
(72)发明人 毕敬 姜广 乔俊飞
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
(54)发明名称
基于水环境知识图谱增强关系的上下文参
数中文实体预测方法
(57)摘要
本发明提出一种水环境知识图谱增强关系
的上下文参数中文实体预测方法, 该方法对水环
境的非结构化的文本数据进行处理, 构建实体和
实体之间关系的三元组, 并对构建的三元组信息
进行知识 推理。 具体流程包括: 首先, 对 水环境的
文本数据进行预处理, 用来抽取其实之间的关
系; 其次, 对 标记的文本数据词向量化, 并对其起
始位置信息编码, 输入到双向长短期记忆网络模
型中, 识别出水环境文本中控制单元、 气象站、 水
文站等实体信息; 再次, 将词向量输入到多元关
系数据嵌入模型中, 抽取命名实体之间的关系,
构建实体之间关系的三元组集合; 最后, 根据三
元组集合并通过增强关系上下文参数的权重来
预测尾部命名实体, 从而提升预测精度。
权利要求书2页 说明书5页 附图2页
CN 114444507 A
2022.05.06
CN 114444507 A
1.一种基于水环境知识图谱增强关系的上下文参数中文实体预测方法, 其特征在于,
包括如下步骤:
步骤1: 对文本数据的预处理, 使用序列标注模式(Begin Inside Outside End
Single,BIOES)标注待处 理的文本序列;
步骤2: 文本标注序列的命名实体的识别;
步骤3: 文本标注序列的命名实体之间关系的抽取;
步骤4: 命名实体关系上 下文参数的生成;
步骤5: 根据命名实体识别的头部实体和命名实体关系生成的上下文参数预测命名实
体识别的尾部实体。
2.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方
法, 其特征在于, 步骤1中对中文 文本数据进行处 理, 具体为:
步骤1: 进行BIOES的编码, 将中文文本的每一行的数据的每一个汉字存入一个新的文
件中, 该文件中的每一行包含两个字段, 第一个字段是一个汉字, 这个汉字就是每一行句子
中的每个汉字, 第二个字段就是BIOES编码的标志, 两个字段之间使用空格分割, 句子和句
子之间使用一个空行进行分割, 表 示一个句子的结束。 在BIOES编码中, 其中O表 示无关重要
的汉字, B表示要识别中文实体的开始汉字, I表示识别中文实体的中间汉字, E表示要识别
中文实体的结束 汉字, S表示可以单个汉字构成的中文实体;
步骤2: 根据文本进行汉字的词向量化, 统计文本不同汉字的个数, 指定使用的维度来
表示一个汉字的词向量, 将其传 入模型中, 生 成汉字的词向量矩阵, 词向量矩阵是计算机可
以识别的数据输入。 同时生 成汉字到下标之 间的字典映射, 下标到汉字的字典映射, 关系到
下标的字典映射, 下标到 关系的字典映射, 实体的关系是根据文本数据, 人工指 定的实体关
系;
步骤3: 对文本中的每个句子生成新的文本, 在每个句子后面添加新的字段, 命名实体
之间的关系, 即头部实体、 头部实体类别、 头部实体在句子中出现的索引位置、 尾部实体、 尾
部实体类别、 尾部实体在句子中出现的索引位置, 字段之间使用 “#”分割开。
3.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方
法, 其特征在于, 步骤2具体为:
对命名实体识别(Named Entities Recognition,NER)问题进行抽象建模, 给定一个句
子中汉字标识符集合w=(w1,w2,...,wN), NER输出一个三元组<Is,Ie,t>的列表, 列表中的
每个三元组代表w中的一个命名实体。 此处Is∈[1,N], Ie∈[1,N], 分别表示为命名实体的起
始索引以及结束索引; t指代从预定义类别中选择的实体 类别。
根据权利要求2中步骤1和步骤2所述方法, 将构建文本词向量矩阵, 批量读取BIOES编
码后的文本数据中的编码标识以及在汉字到下标 的字典中取出汉字对应的下标输入到模
型中, 识别出 给定文本句子中的实体。
4.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方
法, 其特征在于, 步骤3具体为:
对命名实体关系抽取(Named Entities Relation Extraction,NRE)问题进行抽象建
模, 给定一个句子中汉字标识符集合w=(w1,w2,...,wN), 将w词向量化后输入到模 型中, NRE
输出一个三元组<es,r,ee>列表, 列表中的每个三元组代表w中的一对命名实体之间的关权 利 要 求 书 1/2 页
2
CN 114444507 A
2系。 此处es, ee分别表示为句子中头部命名实体和尾部命名实体; r指代从预定 义类别中选择
的实体之间关系类别。
根据权利要求2中步骤3和权利要求3中所述方法, 将权利要求2中步骤3中的每行记录
中的关系字段去除掉, 将构建文本词向量矩阵, 批量读取BIOES编码后的文本数据中的编码
标识以及在汉字到下标的字典中取出汉字对应的下标输入到多元关系数据嵌入
(Translation Embeddings for modeling multi‑relation data,Tran sE)模型中, 识别出
给定文本句子中的实体和实体之间的关系。
5.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方
法, 其特征在于, 步骤4具体为:
上下文参数生成模块是一个函数g, 它接受一个关系r作为输入, 并输出某个其他函数f
的参数θ, θ =g(r)。
6.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方
法, 其特征在于, 步骤5具体为:
根据权利要求3, 权利要求4以及权利要求5中所述的方法, 可以对嵌入上下文参数的中
文实体关系推断进 行建模, 中文文本的卷积核图像的卷积不同, 图像卷积特征的提取, 卷积
的方向有两个, 一个是从左到右, 一个是从上到下, 文本的卷积的方向有一个就是从上到
下, 文本的词向量表示不能分割开来, 借助知识图谱二维卷积词嵌入(Convolutional 2D
knowledge graph Embedding,ConvE)模型的思想, 将其中的二维卷积改成一维卷积1, 对文
本的特征进行提取, z=Conv1D(Res ape(es)), es是输入的头部实体的词向量表示, 对其进
行维度形状变换, 再进行1维卷积操作提取特征图。 θ=g(r), 上下文参数生成模块是一个函
数 g ,它 接 受 一 个 关 系 r 作 为 输 入 ,并 输 出 某 个 其 他 函 数 f 的 参 数θ,
经过函数fθ(z)计算, 得出预测的尾部命名实体, 再和权利要
求5中所述抽取的实体三元组之间的关系进行对比, 计算模型 预测的精确度。权 利 要 求 书 2/2 页
3
CN 114444507 A
3
专利 基于水环境知识图谱增强关系的上下文参数中文实体预测方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:58上传分享