admin 发表于 2017-6-30 11:43:02

数据分析:从Table到Cube

企业的决策人员需要从不同的角度来审视业务,分析业务,以做出最优决策。对于这件事,最初我认为就是整理一些报表。但是,随着做数据的深入,我对这件事的认知有了一次升级,BI领域中的数据分析需求不是一张二维报表就能满足的,它需要的是一个多维的立方体(Cube)。

来看一个例子。分析师小A发现本周业务有了历史性的突破:毛利终于转正啦!为了探查这个数据背后的原因,小A打算从两个方向进行探索:第一,分解维度:所有城市都转正了吗?所有车型的都转正了吗?本周每一天毛利都是正向的吗?第二,拆解指标:毛利=收入-成本,是收入增加了还是成本降低了?如果是收入增加了,那么是收入中的哪一项费用增加了呢?为此,小A至少需要查看分城市、分产品、分日期的毛利报表,收入报表,成本报表。从这么多张报表中收集到这些数据本身就不是件简单的事。此外,即使这些数据已经集中在一张报表中,从中查看跟此次业务相关的数据也需要耗费大量的时间。

为什么Table无法高效的满足数据探索需求呢?根本原因是,Table只构建二维关联,无法构建字段之间的聚合、分解等纵向关联。而构建这种多维关联需要另一种数据结构:Cube。

先看一下对于上面的例子,使用Cube是如何探索的。

首先小A发现毛利指标Cube转正了。于是他先分解维度探索:通过Cube下钻(Drill Down)得到这个指标在城市,车型,用户级别上的各项指标。发现除成都外,其他城市都未转正。于是他就只看成都切片(Slice),又发现除舒适性车指标转正外其他都正常,于是再进一步切片,探索成都,舒适性车本周的指标走势…。经过不断的探索,最终小A发现原来是在本周一,成都客服调整了一次收入费用项导致最终毛利指标转正。

在以上的数据探索过程中,小A不用迷失在多张Table的各个表格中。他在最初的Cube上,通过下钻,上卷,切片,切块,旋转等操作,一步步深入探索,最终找到指标变化的决定性因素。而这个过程最核心的就是Cube提供的这些操作,如下图所示。




最后简单总结下Table和Cube。Table是面向存储的,相对静态的。Cube是面向分析的,相对动态的。Cube底层的存储可能就是一张Table。通过Cube分析得到的结果可能也是一张Table。引入Cube是为了让用户可以从多个角度探索和分析数据集,让数据分析过程更有效,更便捷。






页: [1]
查看完整版本: 数据分析:从Table到Cube