(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210092346.3
(22)申请日 2022.01.26
(71)申请人 数字广东网络建 设有限公司
地址 510000 广东省广州市越秀区东 风中
路362号珠江颐德大厦7,9-12层
(72)发明人 甘兵 廖瑞毅
(74)专利代理 机构 北京品源专利代理有限公司
11332
代理人 康欢欢
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/242(2020.01)
G06F 40/289(2020.01)
(54)发明名称
一种数据钻取方法、 装置、 服务器及存储介
质
(57)摘要
本发明公开了一种数据钻取方法、 装置、 服
务器及存储介质。 该方法包括: 根据预先所构建
数据字典, 从确定的待钻取文本中选定钻取指
标, 并确定钻取指标关联的因果信息组合; 确定
各因果信息组合的排列指标值, 并按照各排列指
标值对各因果信息组合排序; 根据排序后的因果
信息组合结合设定的因果筛选策略, 确定钻取指
标对应的目标因果信息。 上述技术方案, 在基于
数据字典得到钻取指标的因果信息组合的基础
上, 并结合因果筛选策略得到最终的目标因果信
息, 相比现有技术, 提供了一套根据业务数据可
以自动分析并给出结果原因的方法, 可以为业务
分析员在进行业务数据分析时提供有力的参考
依据, 从而可以提高业务数据分析的精确度以及
效率。
权利要求书2页 说明书11页 附图3页
CN 114429139 A
2022.05.03
CN 114429139 A
1.一种数据钻取 方法, 其特 征在于, 包括:
根据预先所构建数据字典, 从确定的待钻取文本中选定钻取指标, 并确定所述钻取指
标关联的因果信息组合;
确定各所述因果信 息组合的排列指标值, 并按照各所述排列指标值对各所述因果信 息
组合排序;
根据排序后的因果信 息组合结合设定的因果筛选策略, 确定所述钻取指标对应的目标
因果信息 。
2.根据权利要求1所述的方法, 其特征在于, 所述根据预先所构建数据字典, 从确定的
待钻取文本中选 定钻取指标, 并确定所述钻取指标关联的因果信息组合, 包括:
对所述待钻取文本进行分词处 理, 获得包 含至少一个关键名词的名词列表;
根据所述名词列表及所述数据字典中的指标库模型, 确定所述钻取指标;
根据预定义的分析维度规则以及所述数据字典中的数据信 息, 构建所述钻取指标的因
果信息组合。
3.根据权利要求2所述的方法, 其特征在于, 所述根据所述名词列表及所述数据字典中
的指标库模型, 确定所述钻取指标, 包括:
将所述名词列表中各关键名词与 所述数据字典中的指标库模型进行匹配, 相对各关键
名词分别选 定至少一个相匹配的钻取候选指标, 构成相应的候选列表;
将各所述候选列表分别映射到多维空间向量, 确定各所述多维空间向量与 所述数据字
典所包含数据表的相似度值;
确定最高相似度值对应的目标数据表和目标候选列表, 将所述目标候选列表中各钻取
候选指标与所述目标数据 表中指标进 行匹配, 将最高度量值对应的钻取候选指标作为所述
钻取指标。
4.根据权利要求2所述的方法, 其特征在于, 所述根据预定义的分析维度规则以及所述
数据字典中的数据信息, 构建所述钻取指标的因果信息组合, 包括:
基于所述数据字典中的数据信息, 从时间维度、 地域维度以及人员维度查找与所述钻
取指标关联的维度信息;
根据所述分析维度规则将所述 时间维度、 地域维度以及人员维度对应的各维度信 息与
所述钻取指标进行组合, 获得至少一种第一因果信息组合;
根据雪花维度建模及所述钻取指标相关的时间维度、 地域维度以及人员维度, 确定所
述钻取指标匹配的其他可用维度, 并结合所述数据信息及所述分析维度规则, 获得基于各
所述其他可用维度形成的至少一种第二因果信息组合;
将各所述第一因果信息组合及各所述第二因果信息组合确定为所述钻取指标的因果
信息组合。
5.根据权利要求1所述的方法, 其特征在于, 所述确定各所述因果信 息组合的排列指标
值, 并按照各 所述排列指标值对各 所述因果信息组合 排序, 包括:
针对每种因果信息组合, 根据所述数据字典中涉及的数据表、 所关联元数据的数据地
图, 确定所述因果信息组合的排列指标值;
根据所述排列指标值以及相关趋势计算公式, 确定所述因果信 息组合相对所述钻取指
标的因果贡献度;权 利 要 求 书 1/2 页
2
CN 114429139 A
2将各所述因果信息组合按照所述因果贡献度由高到低排序。
6.根据权利要求1所述的方法, 其特征在于, 所述根据排序后的因果信 息组合结合设定
的因果筛 选策略, 确定所述钻取指标对应的目标因果信息, 包括:
获取包含排序后各因果信 息组合的组合队列, 并获得各因果信 息组合基于所对应排列
指标值确定的因果贡献度;
从所述组合队列中首个因果信息组合开始, 进行相应因果贡献度的累加, 并将累加结
果与设定的因果筛 选阈值进行比对;
当所述累加结果大于所述因果筛 选阈值时, 结束因果贡献度的累加操作;
将所述因果信息组合中参与因果贡献度累加的各因果信息组合确定为所述钻取指标
的目标因果信息 。
7.根据权利要求1 ‑6任一项所述的方法, 其特征在于, 在确定所述钻取指标对应的目标
因果信息之后, 还 包括:
采用设定的可视化处理策略, 将所述目标因果信息转化为趋势帕累托图及散点图, 并
将所述趋势帕累托图及散点图作为所述待钻取文本的钻取报告反馈 至相关用户。
8.一种数据钻取装置, 其特 征在于, 包括:
信息组合确定模块, 用于根据预先所构建数据字典, 从确定的待钻取文本中选定钻取
指标, 并确定所述钻取指标关联的因果信息组合;
指标值确定模块, 用于确定各所述因果信息组合的排列指标值, 并按照各所述排列指
标值对各 所述因果信息组合 排序;
因果信息确定模块, 用于根据排序后的因果信息组合结合设定的因果筛选策略, 确定
所述钻取指标对应的目标因果信息 。
9.一种服 务器, 其特 征在于, 所述 服务器包括:
一个或多个处 理器;
存储装置, 用于存 储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时, 使得所述处理器实现如权利
要求1‑7中任一所述的数据钻取 方法。
10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序
被处理器执行时实现如权利要求1 ‑7中任一所述的数据钻取 方法。权 利 要 求 书 2/2 页
3
CN 114429139 A
3
专利 一种数据钻取方法、装置、服务器及存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:43上传分享