(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210137901.X
(22)申请日 2022.02.15
(71)申请人 平安国际智慧城市科技股份有限公
司
地址 518000 广东省深圳市前海深港合作
区妈湾兴海 大道3048号前海自贸大厦
1-34层
(72)发明人 周婷
(74)专利代理 机构 深圳市沃德知识产权代理事
务所(普通 合伙) 44347
专利代理师 高杰 于志光
(51)Int.Cl.
G06F 16/22(2019.01)
G06F 16/215(2019.01)
G06F 16/26(2019.01)G06F 16/31(2019.01)
G06F 40/216(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
多维度的数据分析方法、 装置、 电子设备及
介质
(57)摘要
本发明涉及数据分析技术领域, 揭露一种多
维度的数据分析方法, 包括: 获取商业智能系统
中的待分析数据集; 根据待分析数据集的数据类
型将待分析数据集划分为指标数据集和维度数
据集; 根据指标数据集和维度数据集构建指标 维
度表, 指标 维度表包括各个指标数据对应的维度
数据; 删除指标维度表中各个指标数据的多余维
度数据, 得到各个指标数据对应的多个清洗维度
数据, 并基于各个指标数据对应的多个清洗维度
数据构建各个指标数据对应的指标模 型; 将指标
模型之间进行交叉分析, 得到数据分析结果。 本
发明还提出一种多维度的数据分析装置、 设备及
存储介质。 本发明还涉及区块链技术, 所述待分
析数据可存储于区块链节点中。 本发 明可以提高
数据分析的效率。
权利要求书2页 说明书11页 附图2页
CN 114490667 A
2022.05.13
CN 114490667 A
1.一种多维度的数据分析 方法, 其特 征在于, 所述方法包括:
获取商业智能系统中的待分析 数据集;
根据所述待分析数据集的数据类型将所述待分析数据集划分为指标数据集和维度数
据集;
根据所述指标数据集和所述维度数据集构建指标维度表, 所述指标维度表包括各个指
标数据对应的维度数据;
删除所述指标维度表中各个所述指标数据的多余维度数据, 得到各个所述指标数据对
应的多个清洗维度数据, 并基于各个所述指标数据对应的多个所述清洗维度数据构建各个
所述指标 数据对应的指标模型;
将多个所述指标模型之间进行交叉分析, 得到数据分析 结果。
2.如权利要求1所述的多维度的数据分析方法, 其特征在于, 所述获取商业智能系统中
的待分析 数据集, 包括:
获取所述智能商业系统中存 储所述待分析 数据集的数据库名称;
根据所述数据库名称查询所述数据库的服 务器IP地址和密码信息;
利用所述数据库的服务器IP地址和密码信 息连接所述数据库, 从所述数据库中采集待
分析数据, 得到待分析 数据集。
3.如权利要求1所述的多维度的数据分析方法, 其特征在于, 所述根据 所述待分析数据
集的数据类型将所述待分析 数据集划分为指标 数据集和维度数据集, 包括:
获取所述待分析数据集的数据类型, 并根据 所述数据类型将所述待分析数据集中的数
据分为的数值类型 数据和非数值类型 数据;
将所述数值类型 数据作为指标 数据, 将所述非数值类型 数据作为维度数据。
4.如权利要求1所述的多维度的数据分析方法, 其特征在于, 所述根据 所述指标数据集
和所述维度数据集构建指标维度表, 包括:
基于所述维度数据集创建维度查询表;
通过所述维度查询表查询所述指标 数据集中各个指标 数据对应的维度数据;
根据各个指标 数据对应的维度数据构建指标维度表。
5.如权利要求4所述的多维度的数据分析方法, 其特征在于, 所述通过所述维度查询表
查询所述指标 数据集中各个指标 数据对应的维度数据, 包括:
依次从所述指标 数据集中选取一指标 数据作为目标指标 数据;
获取所述维度查询表中各个维度数据对应的文本关键 字;
计算所述目标指标 数据的所属类型与各个所述文本关键 字的相似度;
确定相似度大于预设阈值时对应的维度数据为所述目标指标数据对应的目标维度数
据;
汇总所有目标指标数据的目标维度 数据, 得到所述指标数据集中各个指标数据对应的
维度数据。
6.如权利要求1所述的多维度的数据分析方法, 其特征在于, 所述删除所述指标维度表
中各个指标 数据的多余维度数据, 得到各个指标 数据对应的多个清洗维度数据, 包括:
获取所述指标维度表中各个所述指标数据对应的维度数据, 并将所述维度数据转化为
标准文本类型, 得到维度文本集;权 利 要 求 书 1/2 页
2
CN 114490667 A
2通过文本相似度算法从所述维度文本集中获取多个维度文本集, 每个维度文本集包含
至少两个维度文本;
利用语义分割算法计算多个维度文本集中维度文本的语义范围, 将语义范围大于预设
语义范围的维度文本保留, 将语义范围小于所述预设语义范围的维度文本剔除, 得到多个
清洗维度数据。
7.如权利要求3所述的多维度的数据分析方法, 其特征在于, 所述将所述非数值类型数
据作为维度数据之前, 所述方法还 包括:
将所述非数值类型 数据转换为文本数据;
对所述文本数据进行清洗, 得到清洗文本数据;
对所述清洗数文本数据进行分词处理, 并统计分词后各个词汇的词频, 将各个词汇及
各个词汇的词频以字符串形式汇总, 得到词频字符串集;
通过哈希函数将所述词频字符串集中包含的词汇转化为哈希特征向量, 得到向量词频
字符串集;
通过建立分段索引, 提取 所述向量词频字符串集中相似哈希特 征向量对;
计算所述哈希特征向量对对应的文本数据之间的汉明距离, 并基于所述汉明距离对所
述相似分词向量对 对应的非数值类型 数据去重 。
8.一种多维度的数据分析装置, 其特 征在于, 所述装置包括:
数据获取模块, 用于获取商业智能系统中的待分析 数据集;
数据划分模块, 用于根据所述待分析数据集的数据类型将所述待分析数据集划分为指
标数据集和维度数据集;
维度表构建模块, 用于根据所述指标数据集和所述维度数据集构建指标维度表, 所述
指标维度表包括各个指标 数据对应的维度数据;
指标模型构建模块, 用于删除所述指标维度表中各个所述指标数据的多余维度数据,
得到各个所述指标数据对应的多个清洗维度数据, 并基于各个所述指标数据对应的多个所
述清洗维度数据构建各个所述指标 数据对应的指标模型;
模型分析模块, 用于将多个所述指标模型之间进行交叉分析, 得到数据分析 结果。
9.一种电子设备, 其特 征在于, 所述电子设备包括:
至少一个处 理器; 以及,
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所
述至少一个处理器执行, 以使 所述至少一个处理器能够执行如权利要求 1至7中任一项所述
的多维度的数据分析 方法。
10.一种计算机可读存储介质, 包括存储数据区和存储程序区, 存储数据区存储创建的
数据, 存储程序区存储有计算机程序; 其中, 所述计算机程序被处理器执行时实现如权利要
求1至7中任一项所述的多维度的数据分析 方法。权 利 要 求 书 2/2 页
3
CN 114490667 A
3
专利 多维度的数据分析方法、装置、电子设备及介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:35上传分享