standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211263338.7 (22)申请日 2022.10.17 (71)申请人 丰宗军 地址 101149 北京市通州区杨庄街道长城 国际66号楼A2单元505 (72)发明人 不公告发明人 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/2458(2019.01) (54)发明名称 一种通用型、 可复用的流式大数据统计的实 现方法及系统 (57)摘要 本发明公开了一种通用型、 可复用的流式大 数据统计方法和系统, 属于大数据领域。 本发明 将流式数据统计需求抽象分类成多种运算场景, 包括count、 sum、 max、 min、 avg、 bitcount、 topN、 lastN以及seq运算, 制定了一套用于描 述繁杂的 流式数据统计需求的配置规范, 它内置丰富的转 化类函数、 支持表达式解析, 可 以满足各种复杂 的条件筛选和逻辑判断, 支持多维度计算, 支持 天级、 小时级、 分钟级、 秒级多个时间粒度的统 计, 支持自定义统计周 期的配置。 本发明用于帮 助企业应对繁杂的流式数据统计问题, 可以大大 减少企业在流式数据统计方面的研发成本和数 据维护成本 。 权利要求书2页 说明书7页 附图3页 CN 115510110 A 2022.12.23 CN 115510110 A 1.一种通用型的流式大数据统计的实现方法, 其特征在于, 将流式数据统计需求抽象 分类成多种运算场景, 包括count、 sum、 max、 min、 avg、 bitcount、 topN、 lastN以及seq运算, 并对每一种运 算进行高性能的实现, 从而实现其 通用性, 达 到可以无限制复用的效果。 2.根据权利要求1所述的一种通用型的流式大数据统计的实现方法, 其特征在于, 制定 一套用于描述繁杂的流式数据统计需求的配置规范, 该配置规范支持多维度计算, 支持天 级、 小时级、 分钟级、 秒级多种时间粒度的统计, 支持自定义统计周期的配置, 该规范包括三 个组成部 分: 统计模板、 统计周期和数据有效期, 统计模板是基于XML格式的表达式, 用于描 述流式统计的计算方式; 统计周期为流式数据统计的时间窗口, 可根据需要选择天、 小时、 分钟、 秒几种时间粒度; 数据有效期为统计结果的保存时长 。 3.根据权利要求1所述的一种通用型的流式大数据统计的实现方法, 其特征在于, 该配 置规范可内置丰富的转化类函数及变量、 支持表达式解析, 可以满足各种复杂的条件筛选 和逻辑判断。 4.一种通用型的流式大数据统计的系统, 其特征在于, 该系统包括几个模块: Client模 块, 用于业务方接入的SDK; ICE模块, 系统的RPC服务模块, 用于接收各终端的统计消息数 据; Task模块, 统计的核心计算模块; Web模块, 包括统计任务管理、 查看统计结果、 限流设 置、 权限设置功能。 5.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 使用统计 工程、 统计组、 统计项的三层结构来管理所有的统计需求, 用户可以根据需要创建若干个统 计工程, 每个统计工程可以包括多个统计项, 而基于同一份元数据的多个统计项叫做一个 统计组, 每一个统计组对应一份元 数据。 6.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 采用异步 处理、 批量消费, 对重复性计算进 行聚合处理的方式, 从client端发送消息到最 终的统计结 果入库的每个环节都对重复性消息进 行合并处理, 系统的整个消费链路是一个逐层递减的 结构。 7.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 系统内置 重复数据过滤装置用于实现基数统计, 该过滤装置包含多个分片, 每个分片对应一个 RoaringBitmap数据存储 结构, 扩大分片数可以提高基数统计的精确度, 分片数可根据需要 灵活设置, 数据经过过滤装置首先将原始值通过MurmurHash128b it算法计算其Hash值, 过 滤装置通过判断Hash值是否存在来实现基数统计。 8.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 系统具有 限流保护机制, 限流保护机制包括两个方面: 一是对统计组消息量的 限流, 二是对统计项 结 果量的限流, 通过限流保护机制可以更好的保障系统的稳定性, 限流阈值可通过web端灵活 调整, 限流保护装置具有自动恢复组件, 当数据量下降低于阈值后, 统计服 务可自动恢复。 9.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 系统 的统 计结果数据存储采用delta时间戳压缩, 根据统计项的计算周期将同一小时、 同一 天的数据 压缩后存 储在一块区域。 10.根据权利要求4所述的一种通用型的流式大数据统计的系 统, 其特征在于, client 模块具有超时熔断、 异常熔断的机制, 内置异常计数组件以及自动恢复组件, 业务方在调用 client模块提供的API接口出现异常时, 系统根据 异常量判断是否需要 熔断, 接口熔断则自权 利 要 求 书 1/2 页 2 CN 115510110 A 2动抛弃统计消息, 熔断时长 达到系统阈值后可自动恢复。权 利 要 求 书 2/2 页 3 CN 115510110 A 3
专利 一种通用型、可复用的流式大数据统计的实现方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:34:05
上传分享
举报
下载
原文档
(741.1 KB)
分享
友情链接
GB-T 32504-2016 民用铅酸蓄电池安全技术规范.pdf
GB-T 15610-2008 同色异谱的目视评价方法.pdf
TB-T 1346-2018 木枕用道钉.pdf
GM-T 0035.2-2014 射频识别系统密码应用技术要求 第2部分:电子标签芯片密码应用技术要求.pdf
备份与恢复管理制度.pdf
SL-T782-2019 水利水电工程安全监测系统运行管理规范.pdf
GB-T 13234-2018 用能单位节能量计算方法.pdf
桂林市销售燃放烟花爆竹管理条例.pdf
alienvault 业内人士指南之应急响应 insiders guide incident response 英文版.pdf
GB-T 39717-2020 水处理用陶瓷膜板.pdf
GB 24284-2009 大型焰火燃放安全技术规程.pdf
T-GHDQ 106—2022 车辆远程升级信息安全测试规范.pdf
数据出境安全评估办法 中英文.pdf
GB-Z 32916-2016 信息安全技术 信息安全控制措施审核员指南.pdf
GB-T 33770.2-2019信息技术服务外包第2部分数据保护要求.pdf
GM-T 0097-2020 射频识别电子标签统一名称解析服务安全技术规范.pdf
GB-T 20042.1-2017 质子交换膜燃料电池 第1部分:术语.pdf
GB-T 276-2013 滚动轴承 深沟球轴承 外形尺寸.pdf
MZ-T 120-2018 自立式辅助起床架.pdf
GB-T 25098-2010 绝缘体带电清洗剂使用导则.pdf
1
/
13
评价文档
赞助2.5元 点击下载(741.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。