数据统计分析 — 数据可视化

统计表

统计表是反映统计资料的表格,它一般由四个主要部分组成,即表头、行标题、列标题和数据资料。
设计和使用统计表要注意的几点:

首先,要合理安排统计表的结构。由于强调的问题不同,行标题和列标题可以互换,但应使统计表的横竖长度比例适当,避免出现过高或过宽的表格形式
其次,表头一般应包括表号、总标题和表中数据的单位等内容
再次,表中的上下两条横线一般用粗线,中间的其他线用细线
最后,在使用统计表时,必要时可在表的下方加上注释,特别要注意应注明数据来源

直方图

直方图用于展示分组数据分布,使用矩形的宽度和高度(即面积)来表示频数分布;
image

饼图

可以清楚的显示每一部分在总体中的比例,可以用于比较,只能用于一个总体各部分的比例显示;饼图是一种应该避免使用的图表,因为肉眼对面积大小不敏感。
image
image
上图中,左侧饼图的五个色块的面积排序,不容易看出来。换成柱状图,就容易多了。

一般情况下,总是应该用柱状图替代饼图。但是有一个例外,就是反映某个部分占整体的比重,比如贫穷人口占总人口的百分比。
image

柱形图(Bar Chart)

可以用来比较同样单位度量出来的数据。
柱状图是最常见的图表,也最容易解读。
image
它的适用场合是二维数据集(每个数据点包括两个值x和y),但只有一个维度需要比较。年销售额就是二维数据,”年份”和”销售额”就是它的两个维度,但只需要比较”销售额”这一个维度。
柱状图利用柱子的高度,反映数据的差异。肉眼对高度差异很敏感,辨识效果非常好。柱状图的局限在于只适用中小规模的数据集。

通常来说,柱状图的X轴是时间维,用户习惯性认为存在时间趋势。如果遇到X轴不是时间维的情况,建议用颜色区分每根柱子,改变用户对时间趋势的关注。

折线图(Line Chart)数据

折线图适合二维的大数据集,尤其是那些趋势比单个数据点更重要的场合。
image
它还适合多个二维数据集的比较。
image
上图是两个二维数据集(大气中二氧化碳浓度,地表平均气温)的折线图。

散点图(Scatter Chart)

散点图适用于三维数据集,但其中只有两维需要比较。
image
上图是各国的医疗支出与预期寿命,三个维度分别为国家、医疗支出、预期寿命,只有后两个维度需要比较。
为了识别第三维,可以为每个点加上文字标示,或者不同颜色。
image

雷达图(Radar Chart)

有助于观测多元数据的某些特点;从图中能较难看出数量增减变化的趋势;很难表达出定量的多个指标间的关系。

雷达图适用于多维数据(四维以上),且每个维度必须可以排序(国籍就不可以排序)。但是,它有一个局限,就是数据点最多6个,否则无法辨别,因此适用场合有限。

下面是迈阿密热火队首发的五名篮球选手的数据。除了姓名,每个数据点有五个维度,分别是得分、篮板、助攻、抢断、封盖。
image
画成雷达图,就是下面这样。
image
面积越大的数据点,就表示越重要。很显然,勒布朗·詹姆斯(红色区域)是热火队最重要的选手。
需要注意的时候,用户不熟悉雷达图,解读有困难。使用时尽量加上说明,减轻解读负担。
image

好的图表应包括以下基本特征: – 表述数据的真实情况; – 是多维的,强调数据之间的比较; – 服务于一个明确的目的; – 有对图表的统计描述和文字说明; – 使复杂的观点得到简明、确切、高效的阐述; – 能在最短的时间内以最少的笔墨给读者提供最大量的信息; – 精心设计,清楚标注横/纵坐标、序号、标题;
posted @ 2023-10-23 16:33  VipSoft  阅读(468)  评论(0编辑  收藏  举报