(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211300579.4
(22)申请日 2022.10.21
(71)申请人 北京国氢中联氢能科技研究院有限
公司
地址 100022 北京市东城区东 直门南大街3
号楼1707室
(72)发明人 高鹏博 刘玮 万燕鸣 周佳琦
吕廉承 卢常佳 冯亚娟
(74)专利代理 机构 北京八月瓜知识产权代理有
限公司 1 1543
专利代理师 高丽霞
(51)Int.Cl.
G06F 16/2458(2019.01)
G06F 16/26(2019.01)
G06F 16/28(2019.01)
(54)发明名称
一种基于NLP算法的氢能行业数据分析方
法、 介质及设备
(57)摘要
本发明公开了一种基于NLP算法的氢能行业
数据分析方法, 包括以下步骤; 步骤1, 获取到氢
能相关的企业和项目信息; 步骤2, 将步骤1获得
的数据根据数据流集群的方式进行初始化清洗;
步骤3, 通过NLP语义分析算法对步骤2中初始化
清洗后的数据进行归类和标记; 步骤4, 将步骤3
中归类和标记后的数据通过spark处理、 计算, 并
将数据存储在hive数据仓库和elasticsearch
中; 步骤5, 通过elasticsearch查询的方式呈现
实时企业报告数据和氢能行业能源 数据流向图。
本发明使用了AI智能技术以及spark分析技术
等, 对氢能数据进行了搜集、 分析、 提炼, 运用一
些计算方法或者统计的方法等对 数据进行处理,
随后形成一个氢流图和行业实时报告, 从而能够
让用户深度的了解到数据所 具有的深度价 值。
权利要求书1页 说明书5页 附图2页
CN 115455087 A
2022.12.09
CN 115455087 A
1.一种基于NLP算法的氢能行业数据分析方法, 其特征在于, 包括以下步骤; 步骤1, 获
取到氢能相关的企业和项目信息;
步骤2, 将步骤1 获得的数据根据数据流 集群的方式进行初始化清洗;
步骤3, 通过N LP语义分析算法对步骤2中初始化清洗后的数据进行归类和标记;
步骤4, 将步骤3中归类和标记后的数据通过spark处理、 计算, 并将数据存储在hive数
据仓库和elasticsearc h中;
步骤5, 通过el asticsearch查询的方式呈现实时企业报告数据和氢能行业能源数据流
向图。
2.根据权利要求1所述的一种基于NLP算法的氢能行业数据分析方法, 其特征在于, 步
骤1可以通过企业录入、 网络爬取以及第三方的数据 API接口获取到氢能相关的企业和项目
信息。
3.根据权利要求2所述的一种基于NLP算法的氢能行业数据分析方法, 其特征在于, 所
述步骤3具体为, 通过NLP语义分析算法对步骤2中初始化清洗后的数据进行归类、 标记, 并
将企业相关的项目、 资 讯等信息对接匹配。
4.根据权利要求1 ‑3任一项所述的一种基于NLP算法的氢能行业数据分析方法, 其特征
在于, 步骤4中, 通过spark分布式数据计算, 将归类的数据通过自定义模板的方式, 生成结
果。
5.根据权利要求1 ‑3任一项所述的一种基于NLP算法的氢能行业数据分析方法, 其特征
在于, 步骤5中, 通过分布式ES集群查询检索, 可对数据进 行毫秒级 数据的查询呈现, 并可通
过NLP分析, 推荐相关企业。
6.根据权利要求1 ‑3任一项所述的一种基于NLP算法的氢能行业数据分析方法, 其特征
在于, 所述 生成的结果 为实时报告、 行业分析、 氢流图、 企业完整的氢能行业整体概况等。
7.根据权利要求6所述的一种基于NLP算法的氢能行业数据分析方法, 其特征在于, 氢
流图可对整个行业每年氢气的生产原材料、 储运、 终端消费等多个环节进行比例计算和氢
气数据流向的动态显示。
8.根据权利要求6所述的一种基于NLP算法的氢能行业数据分析方法, 其特征在于, 行
业报告可对氢能行业数据制氢、 储运、 加氢、 用氢等多个维度的报告输出, 并可根据历史数
据, 提供行业分析比对。
9.一种电子设备, 其特征在于, 包括: 处理器、 通信接口、 存储器和通信总线, 其中, 处理
器, 通信接口, 存储器通过通信总线完成相互间的通信; 所述存储器中存储有计算机程序,
当所述程序被所述处理器执行时, 使得所述处理器执行权利要求 1‑8任一项所述基于NLP算
法的氢能行业数据分析 方法的步骤。
10.一种计算机可读存储介质, 其特征在于, 其存储有可由处理器执行的计算机程序,
当所述程序在所述处理器上运行时, 使 得所述处理器执行权利要求 1‑8任一项所述基于NLP
算法的氢能行业数据分析 方法的步骤。权 利 要 求 书 1/1 页
2
CN 115455087 A
2一种基于NLP算法的氢能行业数据分析方 法、 介质及设 备
技术领域
[0001]本发明涉及氢能产业技术领域, 具体来说, 涉及一种基于NLP算法的氢能行业数据
分析方法。
背景技术
[0002]氢能作为高效的储能方式和二次能源, 是跨能源网络协同优化的理想媒介, 加之
其清洁低碳、 灵活高效的特点。 近年来, 氢能产业作为一个复杂系统, 包含的因素庞杂众多,
社会对氢能系统结构和政策优化作用没有清楚认识, 出现了重复性低水平建设、 不顾实际
情况推广氢能项目等问题。 因此, 需要深入分析氢能产业的结构优化水平、 明确氢能产业结
构优化中的主要影响因素及其作用路径, 推进氢能产业结构的优化, 是促进氢能产业协同
发展的重要前提和基本保证。
[0003]在氢能产业时代, 拥有数据是 未来几年发展的关键 。
[0004]而大数据分析系统, 可以准确的、 低成本 的、 实时性的提供氢能数据, 降低了各企
业获取氢能信息的成本, 以及快速推进氢能行业前进的脚步; 而目前市面上缺少对各行业
的氢能数据进行归类统计分析的系统性方法。
发明内容
[0005]针对相关技术中的问题, 本 发明提出一种基于NLP 算法的氢能行业数据分析方法,
以实现对各 行业的氢能数据进行系统性归类统计分析。
[0006]为实现上述目的, 本发明提供如下技术方案: 一种基于NLP算法的氢能行业数据分
析方法, 包括以下步骤; 步骤1, 获取到氢能相关的企业和项目信息;
[0007]步骤2, 将步骤1 获得的数据根据数据流 集群的方式进行初始化清洗;
[0008]步骤3, 通过N LP语义分析算法对步骤2中初始化清洗后的数据进行归类和标记;
[0009]步骤4, 将步骤3中归类和标记后的数据通过spark处理、 计算, 并将数据存储在
hive数据仓库和elasticsearc h中;
[0010]步骤5, 通过elasticsearch查询的方式呈现实 时企业报告数据和氢能行业能源数
据流向图。
[0011]在可能的一个设计中, 步骤1可以通过企业录入、 网络爬取以及第三方的数据API
接口获取到氢能相关的企业和项目信息 。
[0012]在可能的一个设计中, 所述步骤3具体为, 通过NLP语义分析算法对步骤2中初始化
清洗后的数据进行归类、 标记, 并将企业相关的项目、 资 讯等信息对接匹配。
[0013]在可能的一个设计中, 步骤4中, 通过spark分布式数据计算, 将归类的数据通过自
定义模板的方式, 生成结果。
[0014]在可能的一个设计中, 步骤5中, 通过分布式ES集群查询检索, 可对数据进行毫秒
级数据的查询呈现, 并可通过N LP分析, 推荐相关企业。
[0015]在可能的一个设计中, 所述生成的结果为实时报告、 行业分析、 氢流图、 企业完整说 明 书 1/5 页
3
CN 115455087 A
3
专利 一种基于NLP算法的氢能行业数据分析方法、介质及设备
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:05上传分享