概览
为什么要使用数据可视化?通过展示三个例子可以看出数据可视化:
1、可以迅速区分数据集的趋势类型
2、可以迅速了解数据集子类别的对比关系
3、可以在小范围的物理区域优雅地展示大量的数据
例1:安斯库姆四重奏(Anscombe's quatet )
给定四组表格数据如下:
| I (x) | I (y) | II (x) | II (y) | III (x) | III (y) | IV (x) | IV (y) |
|---|---|---|---|---|---|---|---|
| 10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
| 8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
| 13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
| 9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
| 11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
| 14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
| 6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
| 4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
| 12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
| 7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
| 5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |
Step 1 基本统计特征
通过计算四组数据的基本统计特征,四组数据具有相同的统计特征,具体统计值如下:
| 属性 | 值 |
|---|---|
| 每组 x 的均值 | 9(精确值) |
| 每组 x 的样本方差 | 11(精确值) |
| 每组 y 的均值 | 7.5 (精确到小数点后两位) |
| 每组 y 的样本方差 | 4.122 或 4.127(精确到小数点后三位) |
| 每组 x 和 y 之间的关系 | 0.816 (精确到小数点后三位) |
| 每组的线性递归直线 | 3.00 + 0.500*x(分别精确到小数点后两位和三位) |
其中线性回归的拟合优度$R^2$也相同,只看数据本身和基本统计特征值的话,除了第四组中,含有大量相同的x值之外,根本无法看出四组数据有什么不同。那么接下来看看可视化后的效果吧!
Step 2 可视化效果
数据可视化之后,明显看出四组数据之间的差异,即第二、三、四组的线性趋势明显不对,这就是数据可视化的第一个作用:迅速看出数据集的趋势类型。
注:基本统计特征值无法区分数据集之间的趋势差异,并不代表无法用其他统计量区分数据趋势类型,只是相对构建和计算复杂的统计量来说,数据可视化的时间成本更少。这可能也是为什么“在回归分析中频繁使用散点图看趋势”的原因。
例2: 细分市场下的利润情况
给定某公司总利润在细分群体“消费类、企业和总公司”之间的划分数据如下:
Step 1 表格表色
通过额外添加颜色可使亏损部分更明显,着色的表格如下:
添加颜色可以迅速了解每个类别利润之间的正负情况,但依然难以看出每个类别的利润大小的对比关系,那么接下来看看可视化后的效果!
Step 2 可视化效果
上图明显可以轻松看出各类别的利润对比情况,如复印机在三大细分类别中始终利润最高,其中家庭办公的利润最高,这就是数据可视化的第二个作用:可以迅速了解数据集被各细分子类别的对比关系。
例 3 :千行数据的“缩印术”
给定例2中公司2011年1月到2014年12月细分市场每组每月的总利润以及平均利润,如果要求你用一张A5纸优雅地展示全部数据,你会怎样做呢?
Step 1 计算数据点个数
2011-2014年包含四年的数据,每个月都有一个数据点,共48个;有9组,即48*9=432个数据点,加上9个平均利润的数据点,则总共为441个数据点。
或许你会说“一张A5纸完全可以写下全部的数字和必要说明”,但是请想像这样下列场景:当你面对一张只堆满密密麻麻数字和英文字母的便签纸,你会不会以为这是二战遗留下的电报密码?
那么接下来请看数据可视化优雅的缩印术吧!
Step 2 可视化效果
将上图打印在一张A5纸上,不仅优雅地符合尺寸要求,而且可以轻松看出这几年的利润变化情况,这就是数据可视化的第三个作用:可以在小范围的物理区域优雅地展示大量数据。
思考:数据可视化还有哪些作用和令你印象深刻的相关例子?
浙公网安备 33010602011771号