为什么样本方差要用 n - 1而不是 n 才是无偏估计?
为什么样本方差要用 $ n - 1 $ 而不是 $ n $ 才是无偏估计?
方差与标准差 - 国家统计局
也就是说,你想知道:
为什么样本方差 $ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 $ 是总体方差 $ \sigma^2 $ 的无偏估计?
下面详细证明这一点。
🧮 一、定义与符号
设总体服从分布 $ X $,其均值为 $ \mu $,方差为 $ \sigma^2 $。
我们从总体中随机抽取一个容量为 $ n $ 的样本:
样本均值为:
样本方差有两个版本:
-
有偏方差(用 $ n $ 作分母):
\[S^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 \] -
无偏方差(用 $ n - 1 $ 作分母):
\[S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 \]
我们要证明的是:无偏方差的期望等于总体方差,即:
🧮 二、证明过程
我们从样本方差的表达式出发:
展开平方项:
注意到 $ \sum_{i=1}^n X_i = n \bar{X} $,代入得:
所以:
接下来求期望:
由于 $ X_1, X_2, \dots, X_n $ 独立同分布,且 $ E(X_i) = \mu $ ,$ \text{Var}(X_i) = \sigma^2 $,所以:
- $ E(X_i^2) = \text{Var}(X_i) + [E(X_i)]^2 = \sigma^2 + \mu^2 $
- $ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i $,所以 $ E(\bar{X}) = \mu $ ,$ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} $
因此:
代入上式:
所以:
✅ 结论
这就证明了:
样本方差 $ S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 $ 是总体方差 $ \sigma^2 $ 的无偏估计。
而如果用 $ n $ 作分母,则得到的是有偏估计,其期望为:
📌 总结
方差公式 | 是否无偏 | 为什么 |
---|---|---|
\(\frac{1}{n}\sum(X_i-\bar{X})^2\) | ❌ 有偏 | 低估了总体方差 |
\(\frac{1}{n-1}\sum(X_i-\bar{X})^2\) | ✅ 无偏 | 修正了自由度,使得期望等于总体方差 |
其它:一些证明(可以忽略)
1 为什么$$ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} $$
这个表示样本均值的方差。
✅ 为什么:
📌 解释:
假设我们从一个总体中抽取一个大小为 $ n $ 的独立随机样本:
每个 $ X_i $ 都来自同一个总体,具有相同的均值 $ \mu $ 和方差 $ \sigma^2 $。
样本均值为:
那么它的方差为:
利用方差的性质:
- 常数因子可以提出:$ \text{Var}(aX) = a^2 \text{Var}(X) $
- 独立变量的方差可加:$ \text{Var}(X_1 + X_2 + \cdots + X_n) = \text{Var}(X_1) + \text{Var}(X_2) + \cdots + \text{Var}(X_n) $
所以:
🧠 直观理解:
- 样本均值 $ \bar{X} $ 是所有样本点的平均值。
- 平均值会比单个观测值更稳定,所以它的方差会更小。
- 方差缩小的比例是 $ \frac{1}{n} $,因为平均了 $ n $ 个独立的观测。
📌 小结
公式 | 含义 |
---|---|
\(\text{Var}(\bar{X}) = \frac{\sigma^2}{n}\) | 样本均值的方差是总体方差除以样本容量 $ n $ |