standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211122878.3 (22)申请日 2022.09.15 (71)申请人 厦门市美亚柏科信息股份有限公司 地址 361000 福建省厦门市思明区软件园 二期观日路12号102-402单 元 (72)发明人 温平 朱海勇 周成祖 邓立峰 (74)专利代理 机构 厦门福贝知识产权代理事务 所(普通合伙) 35235 专利代理师 郭涵炜 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2455(2019.01) G06F 16/2458(2019.01) (54)发明名称 一种基于分布式内存数据库的数据抽样方 法和装置 (57)摘要 本申请涉及一种基于分布式内存数据库的 数据抽样方法, 其将分布式内存 数据库当做过滤 容器, 数据过滤规则为过滤条件。 过滤容器属性 包括分布式集群服务器、 数据缓存大小、 数据缓 存策略。 过滤条件包括基于规则按MD5算法计算 出128位HASH值、 基于HASH值构建数据存储内存 数据库组织规则, 从而在大数据海量数据面前实 现快速并准确的根据自定义规则抽取数据。 其能 够满足PB设置各大量级别的数据抽样效果, 并能 够满足在业务使用过程中不影响业务的效率短 时间内得到需要的抽样结果数据效果。 在各种行 业中经过海量数据的抽样分析能够快速掌握态 势, 并提前做出各种预警和判断, 能够为生活生 产, 事情发展, 灾难预测等各个领域实战中具有 重大意义。 权利要求书2页 说明书7页 附图4页 CN 115470212 A 2022.12.13 CN 115470212 A 1.一种基于分布式 内存数据库的数据抽样方法, 其特 征在于: 所述方法包括以下步骤: S1: 基于流式处 理的程序等待数据到 达时基于预设规则计算出当前 数据的HASH值; S2: 构建存储过滤容器: 将分布式内存数据库按照系统可用资源池80%资源部署数据 库集群, 并划分多个子节点; S3: 将当前 数据的HASH值写入到分布式 内存数据库中; S4: 当下一条数据到达时, 基于预设规则计算出此条数据的HASH值, 根据此条数据的 HASH值去分布式内存 数据库中进 行匹配, 若分布式内存 数据库中存在相同的HASH值则过滤 此条数据, 若分布式内存数据库不存在相同的HAS H值则将此条数据存储到 分布式内存数据 库中。 2.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 所 述S1具体包括: S11: 基于流式处理的程序等待数据到达时计算当条记录的文件大小, 将大于10240KB 和小于等于10240KB的数据进行区分; S12: 对大于10240KB数据进行截取文件前1024KB和后1024KB数据进行MD5计算, 将小于 等于10240KB数据转化为byte类型后进行全数据反序计算, 然后 再进行MD5全数据计算, 从 而计算出当前 数据的HASH值。 3.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 在 所述S3中, 将当前 数据的HASH值写入到分布式 内存数据库后并赋值缓存失效时间。 4.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 在 所述S4中, 若分布式内存 数据库不存在相同的HAS H值则将此条数据存储到分布式内存 数据 库中, 并且把此 条数据加载到内存中赋值上缓存失效时间。 5.一种基于分布式 内存数据库的数据抽样装置, 其特 征在于: 所述装置包括: HASH值计算模块, 配置用于基于流式处理的程序等待数据到达时基于预设规则计算出 当前数据的HASH值; 存储过滤容器构建模块, 配置用于将分布式内存数据库按照系统可用资源池80%资源 部署数据库集群, 并划分多个子节点; HASH值存 储模块, 配置用于将当前 数据的HASH值写入到分布式 内存数据库中; 数据过滤模块, 当下一条数据到达时, 基于预设规则计算出此条数据的HASH值, 根据 此 条数据的HAS H值去分布式内存 数据库中进 行匹配, 若分布式内存数据库中存在相同的HAS H 值则过滤此条数据, 若分布式内存数据库不存在相同的HAS H值则将此条数据存储到 分布式 内存数据库中。 6.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 所 述基于流式处 理的程序等待数据到 达时基于预设规则计算出当前 数据的HASH值具体包括: 基于流式处理的程序等待数据到达时计算当条记录的文件大小, 将大于10240KB和小 于等于10240KB的数据进行区分; 对大于10240KB数据进行截取文件前1024KB和后1024KB数据进行MD5计算, 将小于等于 10240KB数据转化为byte类型后进行全数据反序计算, 然后再进行MD5全数据计算, 从而计 算出当前 数据的HASH值。 7.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 所权 利 要 求 书 1/2 页 2 CN 115470212 A 2述HASH值存 储模块将当前 数据的HASH值写入到分布式 内存数据库后并赋值缓存失效时间。 8.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 在 所述数据过滤模块中, 若分布式内存 数据库不存在相同的HAS H值则将此条数据存储到 分布 式内存数据库中, 并且把此 条数据加载到内存中赋值上缓存失效时间。 9.一种电子设备, 包括: 一个或多个处 理器; 存储装置, 用于存 储一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1 ‑4中任一所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理 器执行时实现如权利要求1 ‑4中任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115470212 A 3
专利 一种基于分布式内存数据库的数据抽样方法和装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:13
上传分享
举报
下载
原文档
(584.6 KB)
分享
友情链接
ISO 27701-2019 隐私信息管理体系要求中文版.pdf
DB31-T 1339-2021 医院多学科诊疗管理规范 上海市.pdf
T-CSUS 04—2020 装配式磷石膏隔墙体技术标准.pdf
GB-T 37033.3-2018 信息安全技术 射频识别系统密码应用技术要求 第3部分:密钥管理技术要求.pdf
GB-T 13299-2022 钢的游离渗碳体、珠光体和魏氏组织的评定方法.pdf
JR-T0124-2014 金融机构编码规范.pdf
数据安全框架202308.pptx
SC-T 8165-2018 渔船LED水上集鱼灯装置技术要求.pdf
GB-T 21061-2007 国家电子政务网络技术和运行管理规范.pdf
GB-T 37433-2019 低功率燃油燃烧器通用技术要求.pdf
YD-T 4245-2023 电信网和互联网数据脱敏技术要求与测试方法.pdf
GB-T 38548.3-2020 内容资源数字化加工 第3部分:加工规格.pdf
cnnic 国家信息化发展评价报告 2016.pdf
GB-T 15843.1-2017 信息技术 安全技术 实体鉴别 第1部分:总则.pdf
GB-T 34078.4-2021 基于云计算的电子政务公共平台总体规范 第4部分:服务实施.pdf
DB12-T 1121-2022 基坑降水水资源论证技术规程 天津市.pdf
TB-T 1346-2018 木枕用道钉.pdf
网络安全等级保护测评报告模板(2021版).pdf
GB-T 14602-2014 电子工业用气体 氯化氢.pdf
GB-T 21604-2022 化学品 急性皮肤刺激性-腐蚀性试验方法.pdf
1
/
14
评价文档
赞助2.5元 点击下载(584.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。