standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211263338.7 (22)申请日 2022.10.17 (71)申请人 丰宗军 地址 101149 北京市通州区杨庄街道长城 国际66号楼A2单元505 (72)发明人 不公告发明人   (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/2458(2019.01) (54)发明名称 一种通用型、 可复用的流式大数据统计的实 现方法及系统 (57)摘要 本发明公开了一种通用型、 可复用的流式大 数据统计方法和系统, 属于大数据领域。 本发明 将流式数据统计需求抽象分类成多种运算场景, 包括count、 sum、 max、 min、 avg、 bitcount、 topN、 lastN以及seq运算, 制定了一套用于描 述繁杂的 流式数据统计需求的配置规范, 它内置丰富的转 化类函数、 支持表达式解析, 可 以满足各种复杂 的条件筛选和逻辑判断, 支持多维度计算, 支持 天级、 小时级、 分钟级、 秒级多个时间粒度的统 计, 支持自定义统计周 期的配置。 本发明用于帮 助企业应对繁杂的流式数据统计问题, 可以大大 减少企业在流式数据统计方面的研发成本和数 据维护成本 。 权利要求书2页 说明书7页 附图3页 CN 115510110 A 2022.12.23 CN 115510110 A 1.一种通用型的流式大数据统计的实现方法, 其特征在于, 将流式数据统计需求抽象 分类成多种运算场景, 包括count、 sum、 max、 min、 avg、 bitcount、 topN、 lastN以及seq运算, 并对每一种运 算进行高性能的实现, 从而实现其 通用性, 达 到可以无限制复用的效果。 2.根据权利要求1所述的一种通用型的流式大数据统计的实现方法, 其特征在于, 制定 一套用于描述繁杂的流式数据统计需求的配置规范, 该配置规范支持多维度计算, 支持天 级、 小时级、 分钟级、 秒级多种时间粒度的统计, 支持自定义统计周期的配置, 该规范包括三 个组成部 分: 统计模板、 统计周期和数据有效期, 统计模板是基于XML格式的表达式, 用于描 述流式统计的计算方式; 统计周期为流式数据统计的时间窗口, 可根据需要选择天、 小时、 分钟、 秒几种时间粒度; 数据有效期为统计结果的保存时长 。 3.根据权利要求1所述的一种通用型的流式大数据统计的实现方法, 其特征在于, 该配 置规范可内置丰富的转化类函数及变量、 支持表达式解析, 可以满足各种复杂的条件筛选 和逻辑判断。 4.一种通用型的流式大数据统计的系统, 其特征在于, 该系统包括几个模块: Client模 块, 用于业务方接入的SDK; ICE模块, 系统的RPC服务模块, 用于接收各终端的统计消息数 据; Task模块, 统计的核心计算模块; Web模块, 包括统计任务管理、 查看统计结果、 限流设 置、 权限设置功能。 5.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 使用统计 工程、 统计组、 统计项的三层结构来管理所有的统计需求, 用户可以根据需要创建若干个统 计工程, 每个统计工程可以包括多个统计项, 而基于同一份元数据的多个统计项叫做一个 统计组, 每一个统计组对应一份元 数据。 6.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 采用异步 处理、 批量消费, 对重复性计算进 行聚合处理的方式, 从client端发送消息到最 终的统计结 果入库的每个环节都对重复性消息进 行合并处理, 系统的整个消费链路是一个逐层递减的 结构。 7.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 系统内置 重复数据过滤装置用于实现基数统计, 该过滤装置包含多个分片, 每个分片对应一个 RoaringBitmap数据存储 结构, 扩大分片数可以提高基数统计的精确度, 分片数可根据需要 灵活设置, 数据经过过滤装置首先将原始值通过MurmurHash128b it算法计算其Hash值, 过 滤装置通过判断Hash值是否存在来实现基数统计。 8.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 系统具有 限流保护机制, 限流保护机制包括两个方面: 一是对统计组消息量的 限流, 二是对统计项 结 果量的限流, 通过限流保护机制可以更好的保障系统的稳定性, 限流阈值可通过web端灵活 调整, 限流保护装置具有自动恢复组件, 当数据量下降低于阈值后, 统计服 务可自动恢复。 9.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 系统 的统 计结果数据存储采用delta时间戳压缩, 根据统计项的计算周期将同一小时、 同一 天的数据 压缩后存 储在一块区域。 10.根据权利要求4所述的一种通用型的流式大数据统计的系 统, 其特征在于, client 模块具有超时熔断、 异常熔断的机制, 内置异常计数组件以及自动恢复组件, 业务方在调用 client模块提供的API接口出现异常时, 系统根据 异常量判断是否需要 熔断, 接口熔断则自权 利 要 求 书 1/2 页 2 CN 115510110 A 2动抛弃统计消息, 熔断时长 达到系统阈值后可自动恢复。权 利 要 求 书 2/2 页 3 CN 115510110 A 3

PDF文档 专利 一种通用型、可复用的流式大数据统计的实现方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种通用型、可复用的流式大数据统计的实现方法及系统 第 1 页 专利 一种通用型、可复用的流式大数据统计的实现方法及系统 第 2 页 专利 一种通用型、可复用的流式大数据统计的实现方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。