数据的三个基本维度
数理统计时以概率论为基础发展而来的,包括参数估计,假设检验,相关分析,非参数统计等。
我们可以从数据的集中趋势、离散趋势、分布形态三方面对数据进行认识。
集中趋势:中位数、众数、平均数等
离散趋势:极差、四分差、方差、标准差等
分布形态:偏度、峰度
集中趋势
集中趋势时一组数据的代表值,表示定量数据聚集再某个集中值周围的趋势情况。最常用的度量指标就是算术平均数、中位数、众数等。
-
算数平均数:观测值的总和除以观测值个数。
-
中位数
-
众数:观测样本中,出现最多的观测值。
-
几何平均数:n个观测值乘积的n次方根,仅适用于正数。
-
调和平均数:观测值个数除以观测值倒数的总和
-
加权平均数:基于算数平均数,对每个观测值赋予不同的权重系数
-
截尾平均数:先舍去概率分布或样本中最高和最低的一些观测值,再计算出算数平均值,通常最高和最低两端会舍掉一样多的观测值。
-
中程数:观测值中最大值于最小值的算数平均值。
-
中枢纽:所有观测值由大到小排列并分成四等分,处于三个分割点位置的数值称为四分位数,其中第一四分位数于第三四分位数的算数平均数即为中枢纽。
-
三均值:于中枢纽类似,但是计算的是三个四分位数的加权平均数。
-
负偏态:当众数大于中位数且中位数大于算数平均值,整体属于一个左偏的分布,数据大部分集中在左侧。
-
正态:众数=算数平均数=中位数的情况,且整体分布比较均匀,类似正态分布。
-
正偏态:众数小于中位数且中位数小于算数平均值,整体属于一个右偏分布,数据大部分集中在右侧。
离散趋势
离散趋势反映的是一个分布或随机变量的压缩和拉伸的程度,度量指标主要有方差、标准差、变差系数、四分差、极差等。
-
方差:将各个误差的平方相加之后再除以总数,通过这样的方式计算出各个数据分布,以及零散(相对中心点)的程度。
-
标准差:方差的算数平方根即为该随机变量的标准差。有的时候,平均数相同的两个数据,方差和标准差都未必相同。
-
变差系数:当两个方案的期望结果存在差异时,直接用标准差会不好比较,这个时候就要用到变差系数来衡量相对差异,计算方式为标准差与平均值的比值。
-
四分差:以第三四分位数和第一四分位数的差值作为衡量,通常用来构建箱型图,以及对概率分布的简要图表。
-
极差:用来表示观测值中的变异量数,是最大值和最小值的差额,反应标志值的变动范围。
分布形态
-
偏度:用于衡量随机变量概率分布的不对称性,通过对偏度系数的测量,判定数据不对称程度以及方向。
-
峰度:用于测量实数随机变量分布的峰态,是表明数据分布陡峭和平缓的指标。峰度高意味着方差增大时因为低频度的大于或小于平均值的极端值而引起的。

浙公网安备 33010602011771号