(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210091368.8
(22)申请日 2022.01.26
(71)申请人 华东师范大学
地址 200241 上海市闵行区东川路5 00号
(72)发明人 兰曼 张甜甜
(74)专利代理 机构 上海蓝迪专利商标事务所
(普通合伙) 31215
专利代理师 徐筱梅 张翔
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/253(2020.01)
G06F 40/289(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种融合多种文本语义结构图表示的新闻
事件检测方法和系统
(57)摘要
本发明公开了一种融合多种文本语义结构
图表示的事件检测方法和系统。 对应方法包括:
1)基于现有句法、 语义解析工具构建并初始化多
种语义结构图; 2)采用双向长短期记忆网络编码
文本以获得上下文依赖的词汇节点表示; 3)利用
图神经网络更新图中节点和边表 示, 得到文本的
结构语义向量表示; 4)节点表示经线性变换后进
行事件标签多分类, 通过反向传播更新模型参
数。 对应系统包括文本预处理模块、 图结构构建
模块和事件检测模块, 识别海量新闻文本中潜在
事件信息。 本发明将文本图结构化, 通过序列、 句
法、 语义和结构信息的相互补 充来丰富自然语言
文本表示, 有助于提升事件识别的准确性和鲁棒
性, 也为下游知识图谱、 事理图谱构建提供了更
多的事件要素。
权利要求书2页 说明书9页 附图4页
CN 115034224 A
2022.09.09
CN 115034224 A
1.一种融合多种文本语义结构图表示的新闻事件检测方法, 其特征在于, 该方法包括
如下步骤:
步骤一: 针对新闻文本, 构建多种文本语义结构图, 包括词 汇序列图、 依存句法图、 成分
句法图、 语义依存分析图和抽象语义表示图, 并初始化图中节点和边表示;
步骤二: 采用 双向长短期记忆网络编码初始化的新闻文本, 得到文本序列中基于上下
文的词汇 节点表示, 更新图中词汇 节点的向量表示;
步骤三: 利用图神经网络迭代更新每个图中节点和边表示, 得到输入文本的结构语义
向量表示; 所述图神经网络为GCN、 GAT或RGCN网络;
步骤四: 对步骤三得到的节点表示线性变换后进行事件标签多分类, 采用交叉熵损 失
函数, 通过反向传播对 模型参数进行 更新。
2.如权利要求1所述的新闻事件检测方法, 其特征在于, 所述步骤一具体包括如下步
骤:
步骤a1: 构建词汇序列图; 对于文本 中每个词, 计算上下文其它词相对于当前词的相对
距离, 设定窗口值window, 假定window=5, 相对距离值就用 ‑5~+5间的整数表示; 若某词位
于当前词的上文, 使用负整 数表示: 当两词间距离小于5, 绝对值为两词间的距离; 当距离超
过5则用‑5表示; 若某词 位于当前词的下文, 使用正整数表示: 当两词间距离小于5, 数值则
为两词间的距离值; 当距离超过5则用+5表示; 为了表示词间的相对距离, 使用矩阵Adis∈N
×N来表示词汇序列图Gdis, 其中N为词的数量,
表示词wdj相对于词wdi的相对距离;
步骤a2: 构建句法结构图; 依据句法结构分析中依存句法分析和成分句法分析的划分
标准, 基于现有句法解析工具Spacy、 StanfordNLP和LTP得到依存句法树和成分句法树, 再
转换为依存句法图Gdsp和成分句法图Gcop; 对于依存句法图, 节 点为单词, 边为词 与词之间的
依存句法关系, 使用N ×N的矩阵Adsp来表示依存句法图Gdsp,
表示词wdi到词wdj间的依存
关系类型; 对于成分句法图, 节点还额外包含了成分句法块, 边包含三种 连接关系, 即词汇
之间的连接 关系, 词与成分句法块之 间的连接 关系以及成分块之间的连接关系, 使用(N+M)
×(N+M)的矩阵Acop来表示成分句法图Gcop, M为成分块的数量,
表示节点i与节点j之间
的连接关系, 若存在连接则值 为1, 否则值 为0;
步骤a3: 构建语义与结构融合的语义结构图; 依据不同的语义抽象化表示方式, 分别利
用现有工具AllenNLP和FrameNet构建语义依存分析图Gsdp, 和现有模型CAMR构建抽象语义
表示图Gamr; 对于语义依存分析图, 节点为单词, 边为词汇之间的语义依存关系, 将该图转换
为N×N的矩阵Asdp,
表示词wdi和词wdj间的语义依存关系; 对于抽象语义表 示图, 借助训
练好的模 型CAMR来构建抽象语义表示树, 节点为单词, 边为词汇之间的抽象语义关系, 同样
使用N×N的矩阵Aamr进行表示,
表示词wdi和词wdj间的抽象语义关系;
步骤a4: 对步骤a1、 a2和a3中构建的词汇序列图、 依存句法图、 成分句法图、 语义依存分
析图和抽象语义表示图进行节点和边的初始化; 对图中的词汇节点, 使用预训练词向量
BERT或Word2Vec初始化表 示; 对图中的其它节 点, 采用随机初始化表 示; 并对各个图中不同
类型的距离或依存边随机初始化。
3.如权利要求1所述的新闻事件检测方法, 其特征在于, 所述步骤二具体包括如下步权 利 要 求 书 1/2 页
2
CN 115034224 A
2骤:
步骤b1: 以预训练词向量BERT或Wor d2Vec初始化 的文本序列作为输入, 利用BiLSTM对
该文本进行建模, 得到文本序列中基于上下文的词汇节点表示, 更新图中词汇节点的向量
表示。
4.如权利要求1所述的新闻事件检测方法, 其特征在于, 所述步骤三具体包括如下步
骤:
步骤c1: 不考虑边类型时, 各个图中节点仅存在连接关系, 采用图神经网络GCN或GAT对
图中每个节点进行传播和聚合操作, 更新图中每 个节点表示;
步骤c2: 考虑多种边类型时, 采用关系图神经网络RGCN迭代更新依存句法图、 成分句法
图、 语义依存分析图和抽象语义表示图中节点和边表示; 具体来说, 使用边表 示和相邻节点
来更新节点, 同时使用相邻节点表示更新 边表示;
步骤c3: 分别 采用线性映射层将步骤c1和步骤c2得到的多种图表示中的节点表示进行
线性变换, 映射到高维空间得到高维节点表示;
步骤c4: 采用拼接操作聚合 步骤c3中各个图的高维节点表示, 作为 最终节点表示。
5.如权利要求1所述的新闻事件检测方法方法, 其特征在于, 所述步骤四具体包括如下
步骤:
步骤d1: 采用多层感知机对步骤c4聚合后的最终节点表示进行线性变换, 输出每个节
点在多个标签 类别上的概 率值;
步骤d2: 选择最大概 率值所对应的标签 类别作为该节点的事 件标签;
步骤d3: 使用交叉熵损失函数计算损失, 并通过反向传播更新模型参数, 优化模型训
练。
6.一种基于权利要求1所述方法的融合多种文本语义结构图表示的新闻事件检测系
统, 其特征在于, 包括文本预处 理模块、 图结构 构建模块和事 件检测模块:
所述文本预处理模块, 基于现有自然语言处理工具Spacy、 StanfordNLP和LTP对真实场
景下的新闻文本进行去重、 分句、 分词、 解析操作, 得到清洗后的新闻单句;
所述图结构构建模块, 用于将新闻单句解析为多种语义结构图, 并对图中节点和边进
行初始化, 得到原 始仅包含语义信息的图向量表示;
所述事件检测模块, 通过图神经网络 中的信息传递和聚合操作迭代更新图中节点和边
表示, 得到包含语义和结构信息的图节点表示, 经线性变换后进 行事件多标签识别; 并将预
测结果转换为用户可读的事件触发词和事件类型, 用于金融、 电商、 政务领域的舆情监控和
预警、 分析。权 利 要 求 书 2/2 页
3
CN 115034224 A
3
专利 一种融合多种文本语义结构图表示的新闻事件检测方法和系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:43上传分享