standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211122878.3 (22)申请日 2022.09.15 (71)申请人 厦门市美亚柏科信息股份有限公司 地址 361000 福建省厦门市思明区软件园 二期观日路12号102-402单 元 (72)发明人 温平 朱海勇 周成祖 邓立峰  (74)专利代理 机构 厦门福贝知识产权代理事务 所(普通合伙) 35235 专利代理师 郭涵炜 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2455(2019.01) G06F 16/2458(2019.01) (54)发明名称 一种基于分布式内存数据库的数据抽样方 法和装置 (57)摘要 本申请涉及一种基于分布式内存数据库的 数据抽样方法, 其将分布式内存 数据库当做过滤 容器, 数据过滤规则为过滤条件。 过滤容器属性 包括分布式集群服务器、 数据缓存大小、 数据缓 存策略。 过滤条件包括基于规则按MD5算法计算 出128位HASH值、 基于HASH值构建数据存储内存 数据库组织规则, 从而在大数据海量数据面前实 现快速并准确的根据自定义规则抽取数据。 其能 够满足PB设置各大量级别的数据抽样效果, 并能 够满足在业务使用过程中不影响业务的效率短 时间内得到需要的抽样结果数据效果。 在各种行 业中经过海量数据的抽样分析能够快速掌握态 势, 并提前做出各种预警和判断, 能够为生活生 产, 事情发展, 灾难预测等各个领域实战中具有 重大意义。 权利要求书2页 说明书7页 附图4页 CN 115470212 A 2022.12.13 CN 115470212 A 1.一种基于分布式 内存数据库的数据抽样方法, 其特 征在于: 所述方法包括以下步骤: S1: 基于流式处 理的程序等待数据到 达时基于预设规则计算出当前 数据的HASH值; S2: 构建存储过滤容器: 将分布式内存数据库按照系统可用资源池80%资源部署数据 库集群, 并划分多个子节点; S3: 将当前 数据的HASH值写入到分布式 内存数据库中; S4: 当下一条数据到达时, 基于预设规则计算出此条数据的HASH值, 根据此条数据的 HASH值去分布式内存 数据库中进 行匹配, 若分布式内存 数据库中存在相同的HASH值则过滤 此条数据, 若分布式内存数据库不存在相同的HAS H值则将此条数据存储到 分布式内存数据 库中。 2.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 所 述S1具体包括: S11: 基于流式处理的程序等待数据到达时计算当条记录的文件大小, 将大于10240KB 和小于等于10240KB的数据进行区分; S12: 对大于10240KB数据进行截取文件前1024KB和后1024KB数据进行MD5计算, 将小于 等于10240KB数据转化为byte类型后进行全数据反序计算, 然后 再进行MD5全数据计算, 从 而计算出当前 数据的HASH值。 3.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 在 所述S3中, 将当前 数据的HASH值写入到分布式 内存数据库后并赋值缓存失效时间。 4.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 在 所述S4中, 若分布式内存 数据库不存在相同的HAS H值则将此条数据存储到分布式内存 数据 库中, 并且把此 条数据加载到内存中赋值上缓存失效时间。 5.一种基于分布式 内存数据库的数据抽样装置, 其特 征在于: 所述装置包括: HASH值计算模块, 配置用于基于流式处理的程序等待数据到达时基于预设规则计算出 当前数据的HASH值; 存储过滤容器构建模块, 配置用于将分布式内存数据库按照系统可用资源池80%资源 部署数据库集群, 并划分多个子节点; HASH值存 储模块, 配置用于将当前 数据的HASH值写入到分布式 内存数据库中; 数据过滤模块, 当下一条数据到达时, 基于预设规则计算出此条数据的HASH值, 根据 此 条数据的HAS H值去分布式内存 数据库中进 行匹配, 若分布式内存数据库中存在相同的HAS H 值则过滤此条数据, 若分布式内存数据库不存在相同的HAS H值则将此条数据存储到 分布式 内存数据库中。 6.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 所 述基于流式处 理的程序等待数据到 达时基于预设规则计算出当前 数据的HASH值具体包括: 基于流式处理的程序等待数据到达时计算当条记录的文件大小, 将大于10240KB和小 于等于10240KB的数据进行区分; 对大于10240KB数据进行截取文件前1024KB和后1024KB数据进行MD5计算, 将小于等于 10240KB数据转化为byte类型后进行全数据反序计算, 然后再进行MD5全数据计算, 从而计 算出当前 数据的HASH值。 7.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 所权 利 要 求 书 1/2 页 2 CN 115470212 A 2述HASH值存 储模块将当前 数据的HASH值写入到分布式 内存数据库后并赋值缓存失效时间。 8.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 在 所述数据过滤模块中, 若分布式内存 数据库不存在相同的HAS H值则将此条数据存储到 分布 式内存数据库中, 并且把此 条数据加载到内存中赋值上缓存失效时间。 9.一种电子设备, 包括: 一个或多个处 理器; 存储装置, 用于存 储一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1 ‑4中任一所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理 器执行时实现如权利要求1 ‑4中任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115470212 A 3

PDF文档 专利 一种基于分布式内存数据库的数据抽样方法和装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于分布式内存数据库的数据抽样方法和装置 第 1 页 专利 一种基于分布式内存数据库的数据抽样方法和装置 第 2 页 专利 一种基于分布式内存数据库的数据抽样方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:13上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。