数据(或分布)的对称、偏倚

常见的分布一般都只有一个(peak),称为单峰(unimode)分布。如果数据是单峰分布的,也意味着数据的众数(mode)只有一个,因为众数是数据的最大值。当数据表现为单峰分布,一般分布具有对称或偏倚的特征。

对称分布(symmetric distribution)

表现在直方图上,对称分布的左右两部分关于均值(mean)对称
对称分布直方图
箱线图

分布的(tail)是从均值到左边和右边的部分,是直方图中计数变小的部分。对称分布的两个尾基本相等,即长度大致相同。

skew

右偏倚分布(skewed right),也称为正偏倚(positively skewed)。右偏倚的数据有一条向右延伸的长(右)尾。
右偏倚

  • mean > median
  • mean > mode
  • median > mode
  • 右尾比左尾长

箱线图

  • mean比较靠近第一分位数,远离第三分位数
  • 右尾比左尾长

右偏数据可通过对数变换正态化,(极少数情况下)也可以使用平方根变换将右偏数据正态化。
在假设检验中,如果当原假设为真时,检验统计量产生的p值近似服从(0,1)上的均匀分布;当备择假设为真时,p值的分布是右偏的,则检验统计量的使用是正确的。

左偏倚分布(skewed left)和右偏分布正好相反。

  • mean < median
  • mean < mode
  • median < mode
  • 左尾比右尾长

整理编译、图 via

箱线图(boxplot)

Boxplot in R
Boxplot in Excel

posted @ 2021-01-05 21:26  hzworld  阅读(4771)  评论(0编辑  收藏  举报