standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210102364.5 (22)申请日 2022.01.27 (71)申请人 复旦大学 地址 200433 上海市杨 浦区邯郸路2 20号 (72)发明人 何梦雨 冯瑞  (74)专利代理 机构 上海德昭知识产权代理有限 公司 31204 代理人 程宗德 (51)Int.Cl. G06F 16/9536(2019.01) G06F 16/35(2019.01) G06F 16/335(2019.01) G06F 16/33(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于图注意网络的灾难信息过滤方法 及系统 (57)摘要 本发明公开了一种基于图注意网络的灾难 信息过滤方法, 具有这样 的特征, 使用图注意网 络理解帖子的单词和相应信息类型之间的相关 性, 过滤得到 可执行的信息, 包括以下步骤: 步骤 1, 对数据集中的帖子进行预处理, 得到预处理后 的数据; 步骤2, 搭建信息过滤网络模型; 步骤3, 把预处理后的数据输入信息过滤网络模型中进 行训练, 得到训练完成的信息过滤网络模型; 步 骤4, 将待分类的帖子输入训练完成的信息过滤 网络模型, 得到分类结果。 其中, 信息过滤网络包 括BERT编码器、 图注意网络以及关系 网络。 本发 明还公开了一种基于图注意网络的灾难信息过 滤系统, 包括预处 理部和信息过滤部 。 权利要求书1页 说明书7页 附图2页 CN 114428914 A 2022.05.03 CN 114428914 A 1.一种基于 图注意网络的灾难信息过滤方法, 其特征在于, 使用图注意网络理解帖子 的单词和相应信息类型之间的相关性, 过 滤得到可执行的信息, 包括如下步骤: 步骤1, 对数据集中的帖子进行 预处理, 得到预处 理后的数据; 步骤2, 搭建信息过 滤网络模型; 步骤3, 把所述预处理后的数据输入所述信 息过滤网络模型中进行训练, 得到训练完成 的信息过 滤网络模型; 步骤4, 将待分类的帖子 输入所述训练完成的信息过 滤网络模型, 得到分类结果, 其中, 信息过 滤网络包括BERT编码器、 图注意网络以及关系网络 。 2.根据权利要求1所述的基于图注意网络的灾难信息过 滤方法, 其特 征在于: 其中, 所述BERT编码器捕捉推文的语义, 并表示 为一个低维向量。 3.根据权利要求1所述的基于图注意网络的灾难信息过 滤方法, 其特 征在于: 其中, 步骤2中, 使用可学习的距离度量, 以监督的方式, 学习帖子向量和标签向量之间 的相似性。 4.根据权利要求1所述的基于图注意网络的灾难信息过 滤方法, 其特 征在于: 其中, 步骤2中, 所述信息过滤网络模型学习了TREC ‑IS数据集, 并采用了来自TREC ‑IS 挑战作者的可 行动信息 定义。 5.根据权利要求1所述的基于图注意网络的灾难信息过 滤方法, 其特 征在于: 其中, 步骤2中, 使用累计警报值来评估所述信息过滤网络模型的表现, 以识别推文中 的可操作信息 。 6.根据权利要求1所述的基于图注意网络的灾难信息过 滤方法, 其特 征在于: 其中, 步骤2中, 采用元 学习的方式来学习输入特 征和多标签输出之间的映射。 7.根据权利要求1所述的基于图注意网络的灾难信息过 滤方法, 其特 征在于: 其中, 步骤2中, 使用监 督学习的方法训练所述关系网络来学习相似度。 8.根据权利要求1所述的基于图注意网络的灾难信息过 滤方法, 其特 征在于: 其中, 步骤S3包括如下步骤: 步骤S3‑1, 将所述预处理后的数据依次输入到所述信 息过滤网络模型中并进行一 次迭 代; 步骤S3‑2, 进行所述迭代后, 采用最后一层的模型参数分别计算出损失误差, 然后将所 述损失误差反向传播, 从而更新所述模型参数; 步骤S3‑3, 重复步骤S3 ‑1到S3‑2直至达到训练完成条件, 得到训练后的信息过滤网络 模型。 9.一种基于 图注意网络的灾难信息过滤系统, 其特征在于, 使用图注意网络理解帖子 的单词和相应信息类型之间的相关性, 过 滤得到可执行的信息, 包括: 预处理部, 对数据集中的帖子进行 预处理, 得到预处 理后的数据; 信息过滤部, 搭建信息过滤网络模型, 把所述预处理后的数据输入所述信息过滤网络 模型中进行训练, 得到训练完成的信息过滤网络模型, 将待分类的帖子输入所述训练完成 的信息过 滤网络模型, 得到分类结果, 其中, 信息过 滤网络包括BERT编码器、 图注意网络以及关系网络 。权 利 要 求 书 1/1 页 2 CN 114428914 A 2一种基于图注意 网络的灾难 信息过滤方 法及系统 技术领域 [0001]本发明属于机器学习领域, 具体涉及一种基于图注意网络的灾难信息过滤方法及 系统。 背景技术 [0002]社交媒体已经成为紧急情况下分享信息的重要媒介。 社交媒体和传统新闻来源的 主要区别在于能够实时收到受影响人群的反馈。 救援组织可以从这一双向沟通渠道中获 益, 向人们通报情况, 并从受影响人群 收到的最新情况中获得见解。 因此, 从社交平台上 的 帖子中提取危机信息, 可以充分利用情境 意识, 从而更 快地做出反应。 [0003]大多数研究都将社交媒体中的信息提取作为二进制文本分类问题。 研究表明, 在 灾难发生时, 社 交媒体作为主要信息来源的作用。 有 些研究专注于从帖子中过滤相关信息, 而另一些研究则提出了注释方案, 将帖子分类为细粒度标签, 这些标签考虑了人们在灾难 发生前、 期间和之后发布帖子的态度、 信息源和决策行为。 为了推进 社会媒体危机监测解决 方案的状态, 最近几年推出了相关的倡议。 其中之一是始于2018年的文本检索会议的事件 流跟踪。 该专 题旨在将与灾难相关的推文分类为多种信息类型。 [0004]同时, 帖子分类是一项具有挑战性的短文本自然语言处理任务。 这是因为帖子没 有足够的上下文信息, 而且包含固有的嘈杂, 例如拼写错误、 缩略词、 表情符号等。 此外, 在 多标签的情况下, 分类任务变得更加困难, 因为一条帖子可能同时属于一个或多个标签。 早 期的文本分类研究将特征工程和模型训练作为不同的子任务。 随着端到端深度学习方法和 注意机制的出现, 多标签文本分类领域取得了显著进展。 传统方法可以适当地截取文本的 特征。 [0005]然而, 这些方法忽 略了文本语料库 中词语之间的结构信息和 关系。 预先训练过的 语言模型, 如BERT, 在文本分类任务中变得越来越流行。 然而, 由于BERT仅捕获本地上下文 信息, BERT嵌入不能充分捕获关于语 言词汇的全局信息。 为了解决这一问题, 理解词汇表中 单词之间的全局关系, 基于图的方法, 如图卷积网络和图注意网络是很有前 景的。 [0006]最近的研究利用了BERT和图网络相结合 的优势。 对于输入句子, 采用BERT嵌入方 法获取局部上下文信息, 采用图嵌入方法提取句子中每个单词的全局信息, 然后用BERT连 接。 然后, BERT和图卷积网络的两种表示 通过自我注意机制 相互作用来执 行分类任务。 [0007]然而, 目前还缺乏有效的系统来将相关帖子映射到更细粒度的标签上。 这种细粒 度的标签对危机应对者尤其有价 值, 因为他们可以过 滤关键信息, 以快速做出灾难响应。 发明内容 [0008]本发明是为了解决上述问题而进行的, 目的在于提供一种基于图注意网络的灾难 信息过滤方法及系统。 [0009]本发明提供了一种基于图注意网络 的灾难信息过滤方法, 具有这样的特征, 使用 图注意网络理解帖子的单词和相应信息类型之间的相关性, 过滤得到可执行 的信息, 包括说 明 书 1/7 页 3 CN 114428914 A 3

PDF文档 专利 一种基于图注意网络的灾难信息过滤方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于图注意网络的灾难信息过滤方法及系统 第 1 页 专利 一种基于图注意网络的灾难信息过滤方法及系统 第 2 页 专利 一种基于图注意网络的灾难信息过滤方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。