kyrie9527

导航

 

概览

为什么要使用数据可视化?通过展示三个例子可以看出数据可视化: 

1、可以迅速区分数据集的趋势类型

2、可以迅速了解数据集子类别的对比关系

3、可以在小范围的物理区域优雅地展示大量的数据

 


 

例1:安斯库姆四重奏(Anscombe's quatet ) 

给定四组表格数据如下:

I (x)I (y)II (x)II (y)III (x)III (y)IV (x)IV (y)
10.08.0410.09.1410.07.468.06.58
8.06.958.08.148.06.778.05.76
13.07.5813.08.7413.012.748.07.71
9.08.819.08.779.07.118.08.84
11.08.3311.09.2611.07.818.08.47
14.09.9614.08.1014.08.848.07.04
6.07.246.06.136.06.088.05.25
4.04.264.03.104.05.3919.012.50
12.010.8412.09.1312.08.158.05.56
7.04.827.07.267.06.428.07.91
5.05.685.04.745.05.738.06.89

Step 1 基本统计特征

通过计算四组数据的基本统计特征,四组数据具有相同的统计特征,具体统计值如下:

属性
每组 x 的均值9(精确值)
每组 x 的样本方差11(精确值)
每组 y 的均值7.5 (精确到小数点后两位)
每组 y 的样本方差4.122 或 4.127(精确到小数点后三位)
每组 x 和 y 之间的关系0.816 (精确到小数点后三位)
每组的线性递归直线3.00 + 0.500*x(分别精确到小数点后两位和三位)

其中线性回归的拟合优度$R^2$也相同,只看数据本身和基本统计特征值的话,除了第四组中,含有大量相同的x值之外,根本无法看出四组数据有什么不同。那么接下来看看可视化后的效果吧!

Step 2 可视化效果

 

 数据可视化之后,明显看出四组数据之间的差异,即第二、三、四组的线性趋势明显不对,这就是数据可视化的第一个作用:迅速看出数据集的趋势类型。

注:基本统计特征值无法区分数据集之间的趋势差异,并不代表无法用其他统计量区分数据趋势类型,只是相对构建和计算复杂的统计量来说,数据可视化的时间成本更少。这可能也是为什么“在回归分析中频繁使用散点图看趋势”的原因。 

例2: 细分市场下的利润情况

给定某公司总利润在细分群体“消费类、企业和总公司”之间的划分数据如下:

 

 Step 1 表格表色

 通过额外添加颜色可使亏损部分更明显,着色的表格如下:

 

 添加颜色可以迅速了解每个类别利润之间的正负情况,但依然难以看出每个类别的利润大小的对比关系,那么接下来看看可视化后的效果!

Step 2 可视化效果

 

上图明显可以轻松看出各类别的利润对比情况,如复印机在三大细分类别中始终利润最高,其中家庭办公的利润最高,这就是数据可视化的第二个作用:可以迅速了解数据集被各细分子类别的对比关系。

例 3 :千行数据的“缩印术”

给定例2中公司2011年1月到2014年12月细分市场每组每月的总利润以及平均利润,如果要求你用一张A5纸优雅地展示全部数据,你会怎样做呢?

Step 1 计算数据点个数

2011-2014年包含四年的数据,每个月都有一个数据点,共48个;有9组,即48*9=432个数据点,加上9个平均利润的数据点,则总共为441个数据点。

或许你会说“一张A5纸完全可以写下全部的数字和必要说明”,但是请想像这样下列场景:当你面对一张只堆满密密麻麻数字和英文字母的便签纸,你会不会以为这是二战遗留下的电报密码?

那么接下来请看数据可视化优雅的缩印术吧!

Step 2 可视化效果

 

将上图打印在一张A5纸上,不仅优雅地符合尺寸要求,而且可以轻松看出这几年的利润变化情况,这就是数据可视化的第三个作用:可以在小范围的物理区域优雅地展示大量数据。

 

思考:数据可视化还有哪些作用和令你印象深刻的相关例子? 

posted on 2017-09-23 12:51  kyrie9527  阅读(539)  评论(0)    收藏  举报