统计中的八个差概念

学习统计或者撰写论文,大概率你会碰到八种差:离差、变差、方差、标准(离)差、误差、残差、偏差和标准误(差)。观测值:\(\hat{x}\),平均值\(\bar{x}\),真实值\(x\),估计值\(\tilde{x}\)

离差

deviation:任何一个观测值与平均值之间的差异;

计算:\(\hat x-\bar{x}\)

含义:考察的个体偏离“中央”--平均值的程度,但不是偏差;

变差

variation:所有离差的平方和;

计算:\(\sum_{i=1}^{N}(\hat{x}_i-\bar{x})^2\)

含义:变差是总的离差,未解决整体离差正负相加可能为零的情况,适当变通平方后求和,而不是直接求和;

方差

variance:变差的平均值;

计算:\(\frac{\sum_{i=1}^{N}(\hat{x}_i-\bar{x})^2}{N}\)

含义:平均变差,可以有效剔除数据规模的影响,更公平比较两组数据的波动程度;

标准(离)差

standard deviation(SD),又叫标准差方差的平方根,离差平方和均值的平方根;

计算:\(\sqrt{\frac{\sum_{i=1}^{N}(\hat{x}_i-\bar{x})^2}{N}}\)

含义:数据的平均波动程度;

误差

error:观测值与真实值之间的差异;

计算:\(\hat{x}-x\)

含义:测量结果与真实情况的偏离程度,考察量的是否准确;

残差

residual:估计值与观测值之间的差异;

计算:\(\tilde{x}-\hat{x}\)

含义:模型预测结果与实际观测结果的偏离程度,考量猜的是否准确;

偏差

bias:观测值与真实值之间的系统性偏离或观测值与估计值之间的系统性偏离;

计算:\(\hat{x}-x\)\(\hat{x}-\tilde{x}\)

含义:测量或模型存在一定程序的系统误差

标准误(差)

standard error:从平均意义上表征了抽样误差的标准差

例如:

  • 从总体(全国7亿成年男性的身高)中随机抽取一个样本(500名成年男性的身高),样本不是总体,只是总体的一个部分;

  • 这个样本的均值(500名成年男性的平均身高),样本的均值很难恰好等于总体的均值(全国成年男性的平均身高);

  • 如果用抽取样本均值来估计总体均值,会产生估计误差(Error)。而误差是由抽样的随机性造成的(若再抽样一次,可能是另500人被抽到,新样本平均身高自然也是新的均值),因此称为“抽样误差”(Sampling Error)。

posted @ 2025-04-08 22:51  叕叒双又  阅读(170)  评论(0)    收藏  举报