standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210028195.5 (22)申请日 2022.01.11 (71)申请人 国网江苏省电力有限公司信息通信 分公司 地址 210024 江苏省南京市 鼓楼区北京西 路20号 (72)发明人 王翀 查易艺 张明明 徐青山  宋玉 顾颖程 林杉  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 代理人 钱超 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 16/951(2019.01)G06F 40/14(2020.01) G06F 40/211(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于最短依存路径和BERT的电力领域 关系抽取的方法 (57)摘要 本发明一种基于最短依存路径和BERT的电 力领域关系抽取的方法, 包括如下步骤: S1、 从互 联网上获取电力领域文本信息并将其存储于数 据库内; S2、 对于电力领域文本信息使用依存句 法分析对文本中的重要信息进行抽取, 得到原始 语句的依存路径, 同时得到最 短依存路径; S3、 将 原序列依存路径和最短依存路径分别放入BERT 中进行处理, 获得相应的词向量; S4、 将两个向量 分别传入传统的BiLS TM神经网络进行分类, 最后 两个LSTM模型的输出进行拼接, 并用softmax得 到最后的模 型输出结果。 本发明可有效处理电力 专业领域关系抽取问题, 降低噪声词汇对分类模 型的影响, 提高关系抽取的效率以及准确度, 提 高电网决策智能化水平。 权利要求书3页 说明书6页 附图2页 CN 114372138 A 2022.04.19 CN 114372138 A 1.一种基于最短依存路径和BERT的电力领域关系抽取的方法, 其特征在于, 包括如下 步骤: S1、 从互联网上获取电力领域文本信息并将其存 储于数据库内; S2、 使用依存句法分析电力领域文本信息, 对文本中的重要信息进行抽取, 得到原始语 句的依存路径, 同时得到最短依存路径, 并对最短依存序列进行词性标注; S3、 将原始语句的依存路径和最短依存路径分别放入BERT中进行处理, 获得相应的词 向量; S4、 将两个向量分别传入传统的BiLSTM神经网络进行分类, 最后两个LSTM模型的输出 进行拼接, 并用softmax得到最后的模型输出 结果。 2.根据权利要求1所述的基于最短依存路径和BERT的电力领域关系抽取的方法, 其特 征在于, 步骤S1的步骤 包括: S1.1、 选取电力领域信息的可信网络数据源; S1.2、 对网络数据源上的文本信息通过网络爬虫进行抓取, 并根据系 统获取信息的需 求设计上下层提取器对网络数据源进 行判重和置信度分析, 降低信息采集系统的运算量和 存储量; S1.3、 将其存 储数据库内。 3.根据权利要求1所述的基于最短依存路径和BERT的电力领域关系抽取的方法, 其特 征在于, 步骤S2的具体步骤 包括: S2.1、 使用依存句法分析电力领域文本信息, 对文本中的重要信息进行抽取, 称其为预 抽取, 得到原 始序列的依存句法树; S2.2、 将对依存句法树去掉根节点后所得的多棵子树进行调整和剪枝, 若实体词存在, 则保留完整子树; 若实体词不存在, 只保留该子树中的动词和名词; 若舍弃的结点为叶子结 点, 则直接舍弃; 若舍弃的结点为 非叶子节点, 则选择孩子节点中的动词结点作为新的双亲 结点; 当存在 多个动词, 则按照如下优 先级进行选择: 实义动词>趋向动词>系动词>助动 词; S2.3、 将已剪枝的依存句法树视为特殊的 图结构Gt, 以两实体词结点 分别作为起始节点 Ve1和终点节点Ve2, 使用Djkstra最短路径算法求出两个实体节点之间的最短路径, 定义其 为最短依存路径Pt, 其表达式为: Pt=Djkstra(Gt, Ve1, Ve2); 其中, 在最短依存路径上的词语, 组成了该文本的最短依存序列 Pw={wi, wi+1,…, wj}, i, j≤n。 4.根据权利要求1所述的基于最短依存路径和BERT的电力领域关系抽取的方法, 其特 征在于, 步骤S3包括如下步骤: S3.1、 将经处理后的原序列中的单词映射成多维词向量ei∈Rd, d为词向量的维度, 然后 得到句子s的词向量集合X={e1, e2,…, en}, 其中X∈Rn×d; 多头注意力机制 层大致可以表示 为 Z=MultiHead(Q, K, V)=HW0; 其中, W0∈Rhn×k为多头注意力的权 重矩阵; 模型中的多头自注意力是指首先对Q, K, V进行不同的线性变换, 再计算相似度, 这个过权 利 要 求 书 1/3 页 2 CN 114372138 A 2程重复做h次, 然后将h次的结果拼接起来再进行线性变换作为多头自注意力机制的结果, 其计算方法为: Q=XWQ K=XWK V=XWV, 其中, WQ∈Rk×n, WK∈Rk×n, WV∈Rk×n分别为Q, K, V的权重矩阵; 然后重复h次之后, 最终多 头注意力的输出就是将各头 输出进行拼接, 其表达式为: 其中, H∈Rn×hn, 为拼接操作; 所以, headi的表达式为: 其中, WiQ∈Rk×n, WiK∈Rk×n, WiV∈Rk×n; 多头注意力 机制层的结果, 经过残差和归一化处理后, 进入前馈神经网络层, 该层通过 简单的线性激活的运 算得到文本语义的向量表示, 其过程 为: C=max[0, ZW1+b1]W2+b2; 其中, W1, W2为前馈网络的权 重矩阵, b1, b2为前馈网络的偏置; S3.2、 将最短依存序列单独作 为BERT的一个输入, 并且对最短依存序列进行词性标注, 将其词性映射 成相应的语义向量posi∈Rd, 其中d为前文提到的词向量维度, posi为第i个词 的词性, 可求最短依存序列的词性特征为: pos0: n={pos0, pos1,…, posm}, 将最短依存序列 特征及其词性特征进行拼接得到: Xp=sp⊙pos0: m, 计算出Self‑attention的查询向量, 键向 量和值向量, 代入自注意力机制的公式后获得Ep, 再将Ep进行简单的线性激活后得到 最短依 存序列特 征P: P=tanh(Wp·Ep+bp); 步骤S4的步骤 包括: 将步骤S3得到的P和C分别传入传统的双向LSTM神经网络进行分类, 其过程包括: ft=σ(wf·[ht‑1, et]+bf)        (1) it=σ(wi·[ht‑1, et]+bi)        (2) 权 利 要 求 书 2/3 页 3 CN 114372138 A 3

PDF文档 专利 一种基于最短依存路径和BERT的电力领域关系抽取的方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于最短依存路径和BERT的电力领域关系抽取的方法 第 1 页 专利 一种基于最短依存路径和BERT的电力领域关系抽取的方法 第 2 页 专利 一种基于最短依存路径和BERT的电力领域关系抽取的方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:58上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。