standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210047416.3 (22)申请日 2022.01.17 (71)申请人 吉林大学 地址 130012 吉林省长 春市前进大街269 9 号 (72)发明人 陈珂 左万利 左祥麟 张一嘉  梁世宁  (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 赵兴华 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于时间关系抽取文本因果关系的方 法及系统 (57)摘要 本发明提供的一种基于时间关系抽取文本 因果关系的方法及系统, 包括: 对句子中的词之 间的关系进行标注, 生成关系矩阵; 构建TC ‑GAT 模型; 通过所述句子中的词和所述关系矩阵对所 述TC‑GAT模型进行训练; 通过训练好的TC ‑GAT模 型抽取所述句子的因果关系。 本发 明通过均衡图 注意力机制和自注意力机制的图神经网络模型, 提高因果关系抽取准确度的方法。 权利要求书2页 说明书10页 附图4页 CN 114548112 A 2022.05.27 CN 114548112 A 1.一种基于时间关系抽取文本因果关系的方法, 其特 征在于, 所述方法包括: 对句子中的词之间的关系进行 标注, 生成关系矩阵; 构建TC‑GAT模型; 通过所述句子中的词和所述关系矩阵对所述TC ‑GAT模型进行训练; 通过训练好的TC ‑GAT模型抽取 所述句子的因果关系。 2.根据权利要求1所述的基于时间关系抽取文本因果关系的方法, 其特征在于, 所述 TC‑GAT模型包括Bi LSTM模型、 GAT模型、 BERT模型和均衡机制的门控 模型。 3.根据权利要求2所述的基于时间关系抽取文本因果关系的方法, 其特征在于, 所述通 过所述句子中的词和所述关系矩阵对所述TC ‑GAT模型进行训练, 具体包括: 以所述句子中的词为输入, 对BiLSTM模型进行训练, 输出为所述句子中的词的双向向 量; 以所述句子中的词的双向向量和所述关系矩阵为输入, 对GAT模型进行训练, 输出为所 述句子中的词的图注意力特 征; 以所述句子中的词为输入, 对BERT模型进行训练, 输出为所述句子中的词的状态; 将所述句子 中的词的状态与 所述句子 中的词的词嵌入进行向量拼接, 得到所述句子中 的词的自注意力特 征; 以所述句子 中的词的图注意力特征和所述句子 中的词的自注意力特征作为输入, 对均 衡机制的门控 模型进行训练, 得到所述句子的因果关系。 4.根据权利要求3所述的基于时间关系抽取文本因果关系的方法, 其特征在于, 所述 BiLSTM模型为: HBiLSTM=BiLSTM([E1,...,Et,...,El]); 其中, Et∈IRl×n为第t个词嵌入, l为句子的长度, 为由BiLSTM生成的句中第t个词 的双向向量表示, 为前向lstm获得的输出, 为后向lstm获得的输出, HBiLSTM为BiLSTM模 型的输出。 5.根据权利要求3所述的基于时间关系抽取文本因果关系的方法, 其特征在于, 所述均 衡机制的门控 模型为: 其中, Wg为参数矩阵, bg为偏置项, 为向量拼接操作, g为均衡系数, ht′为最后均衡机制 输出的向量表示, α ∈IR2l×m为系数权重矩阵, 为由BERT的顶层四个隐藏层产生的第t个词 的状态与词嵌入之和, 为句子中的词的图注意力特 征。 6.一种基于时间关系抽取文本因果关系的系统, 其特征在于, 所述系统包括: 标注模块 和构建模块; 所述标注模块, 用于对句子中的词之间的关系进行 标注, 生成关系矩阵; 所述构建模块, 用于构建TC ‑GAT模型, 以所述句子中的词和对应的所述关系矩阵为输权 利 要 求 书 1/2 页 2 CN 114548112 A 2入, 对所述TC ‑GAT模型进行训练, 输出为所述句子的因果关系。 7.根据权利要求6所述的基于时间关系抽取文本因果关系的系统, 其特征在于, 所述构 建模块包括Bi LSTM模型模块、 GAT模型模块、 BERT模型模块和均衡机制的门控 模型模块。 8.根据权利要求7所述的基于时间关系抽取文本因果关系的系统, 其特征在于, 所述 BiLSTM模型模块, 用于以所述句子中的词的词嵌入为输入, 对输入双向长时记忆网络模型 进行训练, 输出为所述句子中的词的双向 向量; 所述GAT模型模块, 用于以所述句子 中的词的双向向量和所述关系矩阵为输入, 对图注 意力网络模型进行训练, 输出为所述句子中的词的图注意力特 征; 所述BERT模型模块包括BERT预训练的语言表征模型单元和拼接单元; 所述BERT预训练 的语言表征模型单元, 用于以所述句子中的词 为输入, 对BERT预训练的语言表征模型进行 训练, 输出为所述句子中的词的状态; 所述拼接单元, 用于将所述句子中的词的状态与所述 句子中的词的词嵌入进行向量 拼接, 得到所述句子中的词的自注意力特 征; 所述均衡机制的门控模型模块, 用于以所述句子中的词的图注意力特征和所述句子中 的词的自注意力特征作为输入, 对均衡机制的门控模型进行训练, 得到所述句 子的因果关 系。 9.根据权利要求8所述的基于时间关系抽取文本因果关系的系统, 其特征在于, 所述 BiLSTM模型为: HBiLSTM=BiLSTM([E1,...,Et,...,El]); 其中, Et∈IRl×n为第t个词嵌入, l为句子的长度, 为由BiLSTM生 成的句中第t个词 的双向向量表示, 为前向lstm获得的输出, 为后向lstm获得的输出, HBiLSTM为BiLSTM模 型的输出。 10.根据权利要求8所述的基于时间关系抽取文本因果关系的系统, 其特征在于, 所述 均衡机制的门控 模型为: 其中, Wg为参数矩阵, bg为偏置项, 为向量拼接操作, g为均衡系数, ht′为最后均衡机 制输出的向量表示, α ∈IR2l×m为系数权重矩阵, 为由BERT的顶层四个隐藏层产生的第t个 词的状态与词嵌入之和, 为句子中的词的图注意力特 征。权 利 要 求 书 2/2 页 3 CN 114548112 A 3

PDF文档 专利 一种基于时间关系抽取文本因果关系的方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于时间关系抽取文本因果关系的方法及系统 第 1 页 专利 一种基于时间关系抽取文本因果关系的方法及系统 第 2 页 专利 一种基于时间关系抽取文本因果关系的方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。