standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210091368.8 (22)申请日 2022.01.26 (71)申请人 华东师范大学 地址 200241 上海市闵行区东川路5 00号 (72)发明人 兰曼 张甜甜  (74)专利代理 机构 上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师 徐筱梅 张翔 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/253(2020.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种融合多种文本语义结构图表示的新闻 事件检测方法和系统 (57)摘要 本发明公开了一种融合多种文本语义结构 图表示的事件检测方法和系统。 对应方法包括: 1)基于现有句法、 语义解析工具构建并初始化多 种语义结构图; 2)采用双向长短期记忆网络编码 文本以获得上下文依赖的词汇节点表示; 3)利用 图神经网络更新图中节点和边表 示, 得到文本的 结构语义向量表示; 4)节点表示经线性变换后进 行事件标签多分类, 通过反向传播更新模型参 数。 对应系统包括文本预处理模块、 图结构构建 模块和事件检测模块, 识别海量新闻文本中潜在 事件信息。 本发明将文本图结构化, 通过序列、 句 法、 语义和结构信息的相互补 充来丰富自然语言 文本表示, 有助于提升事件识别的准确性和鲁棒 性, 也为下游知识图谱、 事理图谱构建提供了更 多的事件要素。 权利要求书2页 说明书9页 附图4页 CN 115034224 A 2022.09.09 CN 115034224 A 1.一种融合多种文本语义结构图表示的新闻事件检测方法, 其特征在于, 该方法包括 如下步骤: 步骤一: 针对新闻文本, 构建多种文本语义结构图, 包括词 汇序列图、 依存句法图、 成分 句法图、 语义依存分析图和抽象语义表示图, 并初始化图中节点和边表示; 步骤二: 采用 双向长短期记忆网络编码初始化的新闻文本, 得到文本序列中基于上下 文的词汇 节点表示, 更新图中词汇 节点的向量表示; 步骤三: 利用图神经网络迭代更新每个图中节点和边表示, 得到输入文本的结构语义 向量表示; 所述图神经网络为GCN、 GAT或RGCN网络; 步骤四: 对步骤三得到的节点表示线性变换后进行事件标签多分类, 采用交叉熵损 失 函数, 通过反向传播对 模型参数进行 更新。 2.如权利要求1所述的新闻事件检测方法, 其特征在于, 所述步骤一具体包括如下步 骤: 步骤a1: 构建词汇序列图; 对于文本 中每个词, 计算上下文其它词相对于当前词的相对 距离, 设定窗口值window, 假定window=5, 相对距离值就用 ‑5~+5间的整数表示; 若某词位 于当前词的上文, 使用负整 数表示: 当两词间距离小于5, 绝对值为两词间的距离; 当距离超 过5则用‑5表示; 若某词 位于当前词的下文, 使用正整数表示: 当两词间距离小于5, 数值则 为两词间的距离值; 当距离超过5则用+5表示; 为了表示词间的相对距离, 使用矩阵Adis∈N ×N来表示词汇序列图Gdis, 其中N为词的数量, 表示词wdj相对于词wdi的相对距离; 步骤a2: 构建句法结构图; 依据句法结构分析中依存句法分析和成分句法分析的划分 标准, 基于现有句法解析工具Spacy、 StanfordNLP和LTP得到依存句法树和成分句法树, 再 转换为依存句法图Gdsp和成分句法图Gcop; 对于依存句法图, 节 点为单词, 边为词 与词之间的 依存句法关系, 使用N ×N的矩阵Adsp来表示依存句法图Gdsp, 表示词wdi到词wdj间的依存 关系类型; 对于成分句法图, 节点还额外包含了成分句法块, 边包含三种 连接关系, 即词汇 之间的连接 关系, 词与成分句法块之 间的连接 关系以及成分块之间的连接关系, 使用(N+M) ×(N+M)的矩阵Acop来表示成分句法图Gcop, M为成分块的数量, 表示节点i与节点j之间 的连接关系, 若存在连接则值 为1, 否则值 为0; 步骤a3: 构建语义与结构融合的语义结构图; 依据不同的语义抽象化表示方式, 分别利 用现有工具AllenNLP和FrameNet构建语义依存分析图Gsdp, 和现有模型CAMR构建抽象语义 表示图Gamr; 对于语义依存分析图, 节点为单词, 边为词汇之间的语义依存关系, 将该图转换 为N×N的矩阵Asdp, 表示词wdi和词wdj间的语义依存关系; 对于抽象语义表 示图, 借助训 练好的模 型CAMR来构建抽象语义表示树, 节点为单词, 边为词汇之间的抽象语义关系, 同样 使用N×N的矩阵Aamr进行表示, 表示词wdi和词wdj间的抽象语义关系; 步骤a4: 对步骤a1、 a2和a3中构建的词汇序列图、 依存句法图、 成分句法图、 语义依存分 析图和抽象语义表示图进行节点和边的初始化; 对图中的词汇节点, 使用预训练词向量 BERT或Word2Vec初始化表 示; 对图中的其它节 点, 采用随机初始化表 示; 并对各个图中不同 类型的距离或依存边随机初始化。 3.如权利要求1所述的新闻事件检测方法, 其特征在于, 所述步骤二具体包括如下步权 利 要 求 书 1/2 页 2 CN 115034224 A 2骤: 步骤b1: 以预训练词向量BERT或Wor d2Vec初始化 的文本序列作为输入, 利用BiLSTM对 该文本进行建模, 得到文本序列中基于上下文的词汇节点表示, 更新图中词汇节点的向量 表示。 4.如权利要求1所述的新闻事件检测方法, 其特征在于, 所述步骤三具体包括如下步 骤: 步骤c1: 不考虑边类型时, 各个图中节点仅存在连接关系, 采用图神经网络GCN或GAT对 图中每个节点进行传播和聚合操作, 更新图中每 个节点表示; 步骤c2: 考虑多种边类型时, 采用关系图神经网络RGCN迭代更新依存句法图、 成分句法 图、 语义依存分析图和抽象语义表示图中节点和边表示; 具体来说, 使用边表 示和相邻节点 来更新节点, 同时使用相邻节点表示更新 边表示; 步骤c3: 分别 采用线性映射层将步骤c1和步骤c2得到的多种图表示中的节点表示进行 线性变换, 映射到高维空间得到高维节点表示; 步骤c4: 采用拼接操作聚合 步骤c3中各个图的高维节点表示, 作为 最终节点表示。 5.如权利要求1所述的新闻事件检测方法方法, 其特征在于, 所述步骤四具体包括如下 步骤: 步骤d1: 采用多层感知机对步骤c4聚合后的最终节点表示进行线性变换, 输出每个节 点在多个标签 类别上的概 率值; 步骤d2: 选择最大概 率值所对应的标签 类别作为该节点的事 件标签; 步骤d3: 使用交叉熵损失函数计算损失, 并通过反向传播更新模型参数, 优化模型训 练。 6.一种基于权利要求1所述方法的融合多种文本语义结构图表示的新闻事件检测系 统, 其特征在于, 包括文本预处 理模块、 图结构 构建模块和事 件检测模块: 所述文本预处理模块, 基于现有自然语言处理工具Spacy、 StanfordNLP和LTP对真实场 景下的新闻文本进行去重、 分句、 分词、 解析操作, 得到清洗后的新闻单句; 所述图结构构建模块, 用于将新闻单句解析为多种语义结构图, 并对图中节点和边进 行初始化, 得到原 始仅包含语义信息的图向量表示; 所述事件检测模块, 通过图神经网络 中的信息传递和聚合操作迭代更新图中节点和边 表示, 得到包含语义和结构信息的图节点表示, 经线性变换后进 行事件多标签识别; 并将预 测结果转换为用户可读的事件触发词和事件类型, 用于金融、 电商、 政务领域的舆情监控和 预警、 分析。权 利 要 求 书 2/2 页 3 CN 115034224 A 3

PDF文档 专利 一种融合多种文本语义结构图表示的新闻事件检测方法和系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合多种文本语义结构图表示的新闻事件检测方法和系统 第 1 页 专利 一种融合多种文本语义结构图表示的新闻事件检测方法和系统 第 2 页 专利 一种融合多种文本语义结构图表示的新闻事件检测方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。