专利 一种海量数据异步存取处理方法、系统、装置和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211172070.6 (22)申请日 2022.09.26 (71)申请人北京信格科技有限公司地址 100089 北京市海淀区农大南路1号院 2号楼3层办公B- 302 (72)发明人肖云鹤　刘亚军　贺欢庆　代庆国　 (74)专利代理机构北京细软智谷知识产权代理有限责任公司 1 1471 专利代理师涂凤琴 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/27(2019.01) G06F 16/2457(2019.01) G06F 16/28(2019.01) (54)发明名称一种海量数据异步存取处理方法、系统、装置和存储介质 (57)摘要本发明涉及数据的存取处理技术领域，具体涉及一种海量数据异步存取处理方法、系统、装置和存储介质，本发明根据存储单元的分布信息和哈希值对数据进行分流，并将分流信息记录到分流数据库中并存储，其中，哈希值通过数据的特征值进行哈希计算得到；分流数据库至少包括：分流后的数据和数据存储单元的地址，根据所述哈希值查找到相应的分流数据库并获取数据，本发明的技术方案在存储数据时通过哈希值的方式对数据进行分类，并确定数据的存储位置，在获取数据库时，采用哈希值的方式获取，本发明的方案摆脱了对于Po stgreSQL的依赖，对于其他数据库本发明的方案也适用。权利要求书1页说明书6页附图1页 CN 115510063 A 2022.12.23 CN 115510063 A 1.一种海量数据异步存取处理方法，其特征在于，包括：根据存储单元的分布信息和哈希值对数据进行分流，并将分流信息记录到分流数据库中并存储；其中，所述哈希值通过数据的特征值进行哈希计算得到；所述分流数据库至少包括：分流后的数据和数据存储单元的地址；根据所述哈希值查找到相应的分流数据库并获取数据。 2.根据权利要求1所述的方法，其特征在于，所述根据存储单元的分布信息和哈希值对数据进行分流并将分流信息记录到分流数据库中并存储，包括：将结构化数据和非结构化数据进行分流后，需要将分流信息记录到分流数据库，并由异步线程推送至存储单元。 3.根据权利要求2所述的方法，其特征在于，所述由异步线程推送至存储单元，包括：结构化数据通过异步线程推送至存储单元集群中的Write 数据库；或者，非结构化数据通过异步线程推送至FIFO队列并按照分流规则存储在不同的存储单元。 4.根据权利要求3所述的方法，其特征在于，所述结构化数据通过异步线程推送至存储单元集群中的Write 数据库之后，包括：数据自动将Write 数据库中的内容同步至Read数据库。 5.根据权利要求3所述的方法，其特征在于，所述根据所述哈希值查找到相应的分流数据库并获取数据，包括：若获取的数据为结构化数据，根据获取数据的哈希值在分流数据库的缓存集群Redis 中查找，若有，则查找结束；若无，则在所述存储单元集群中的Read数据库中查找；若获取的数据为非结构化数据，根据获取数据的哈希值在分流数据库中找到所述数据存储单元的地址并获取。 6.根据权利要求1 ‑5任意一项所述的方法，其特征在于，所述分流数据库为本地数据库，且为关系型数据库。 7.一种海量数据异步存取处理系统，其特征在于，包括：数据存储模块，用于根据存储单元的分布信息和哈希值对数据进行分流，并将分流信息记录到分流数据库中并存储；其中，所述哈希值通过数据的特征值进行哈希计算得到；所述分流数据库至少包括：分流后的数据和数据存储单元的地址；数据获取模块，用于根据所述哈希值查找到相应的分流数据库并获取数据。 8.根据权利要求7所述的系统，其特征在于，所述系统的处理终端为WEB应用或作为SDK 嵌入式供第三方软件调用。 9.一种执行海量数据异步存取处理装置，其特征在于，包括如权利要求1 ‑6任意一项所述的方法。 10.一种计算机可读存储介质，其特征在于，其上存储有可擦写的计算机程序；当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行如权利要求1 ‑6 任意一项所述的方法。权　利　要　求　书 1/1 页 2 CN 115510063 A 2一种海量数据异步存取处理方法、系统、装置和存储介质技术领域 [0001]本发明涉及数据的存取处理技术领域，具体涉及一种海量数据异步存取处理方法、系统、装置和存储介质。背景技术 [0002]水的流动汇成江河大海，孕育生命，形成大自然生态。数据流动，推进社会进步，拓展业务边界。 [0003]目前，利用阿里云RDS PostgreSQL， HybridDB for PostgreSQL，海量对象存储 OSS，打造一个从流计算到在线业务，再到数据分析和挖掘的业务，发挥数据的价值，在银行、证券交易、保险公司、游戏、电商等机构应用广泛。其中，实时数据写入采用RDS PostgreSQL，准实时数据写入采用HybridDB for PostgreSQL，但此方法需要使用定制版的 PostgreSQL，无法拓展到其他类型的数据库中使用，若是在金融、政府等机构中，要求基于原系统的应用进行改造，改造成适用于Oracle数据库或者DB2数据库，这个时候就没发实现。发明内容 [0004]有鉴于此，本发明的目的在于提供一种海量数据异步存取处理方法、系统、装置和存储介质，以解决现有技术中原系统依赖PostgreSQL，在对其进行升级改造时，无法适用于其他数据库的技术问题。 [0005]根据本发明实施例的第一方面，提供一种海量数据异步存取处理方法，包括： [0006]根据存储单元的分布信息和哈希值对数据进行分流，并将分流信息记录到分流数据库中并存储；其中，所述哈希值通过数据的特征值进行哈希计算得到；所述分流数据库至少包括：分流后的数据和数据存储单元的地址； [0007]根据所述哈希值查找到相应的分流数据库并获取数据。 [0008]优选地，所述根据存储单元的分布信息和哈希值对数据进行分流并将分流信息记录到分流数据库中并存储，包括： [0009]将结构化数据和非结构化数据进行分流后，需要将分流信息记录到分流数据库，并由异步线程推送至存储单元。 [0010]优选地，所述由异步线程推送至存储单元，包括： [0011]结构化数据通过异步线程推送至存储单元集群中的Write 数据库； [0012]或者，非结构化数据通过异步线程推送至FIFO队列并按照分流规则存储在不同的存储单元。 [0013]优选地，所述结构化数据通过异步线程推送至存储单元集群中的Write数据库之后，包括： [0014]数据自动将Write 数据库中的内容同步至Read数据库。 [0015]优选地，所述根据所述哈希值查找到相应的分流数据库并获取数据，包括：说　明　书 1/6 页 3 CN 115510063 A 3

专利 一种海量数据异步存取处理方法、系统、装置和存储介质

专利一种海量数据异步存取处理方法、系统、装置和存储介质