为什么样本方差要用 n - 1而不是 n 才是无偏估计？

为什么样本方差要用 $ n - 1 $ 而不是 $ n $ 才是无偏估计？
方差与标准差 - 国家统计局

也就是说，你想知道：

为什么样本方差 $ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 $ 是总体方差 $ \sigma^2 $ 的无偏估计？

下面详细证明这一点。

🧮 一、定义与符号

设总体服从分布 $ X $，其均值为 $ \mu $，方差为 $ \sigma^2 $。

我们从总体中随机抽取一个容量为 $ n $ 的样本：

\[X_1, X_2, \dots, X_n \]

样本均值为：

\[\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \]

样本方差有两个版本：

有偏方差（用 $ n $ 作分母）：

\[S^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 \]
无偏方差（用 $ n - 1 $ 作分母）：

\[S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 \]

我们要证明的是：无偏方差的期望等于总体方差，即：

\[E\left( \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 \right) = \sigma^2 \]

🧮 二、证明过程

我们从样本方差的表达式出发：

\[\sum_{i=1}^n (X_i - \bar{X})^2 \]

展开平方项：

\[= \sum_{i=1}^n (X_i^2 - 2X_i \bar{X} + \bar{X}^2) = \sum_{i=1}^n X_i^2 - 2\bar{X} \sum_{i=1}^n X_i + n \bar{X}^2 \]

注意到 $ \sum_{i=1}^n X_i = n \bar{X} $，代入得：

\[= \sum_{i=1}^n X_i^2 - 2\bar{X}(n \bar{X}) + n \bar{X}^2 = \sum_{i=1}^n X_i^2 - n \bar{X}^2 \]

所以：

\[\sum_{i=1}^n (X_i - \bar{X})^2 = \sum_{i=1}^n X_i^2 - n \bar{X}^2 \]

接下来求期望：

\[E\left( \sum_{i=1}^n (X_i - \bar{X})^2 \right) = E\left( \sum_{i=1}^n X_i^2 - n \bar{X}^2 \right) = \sum_{i=1}^n E(X_i^2) - n E(\bar{X}^2) \]

由于 $ X_1, X_2, \dots, X_n $ 独立同分布，且 $ E(X_i) = \mu $ ，$ \text{Var}(X_i) = \sigma^2 $，所以：

$ E(X_i^2) = \text{Var}(X_i) + [E(X_i)]^2 = \sigma^2 + \mu^2 $
$ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i $，所以 $ E(\bar{X}) = \mu $ ，$ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} $

因此：

\[E(\bar{X}^2) = \text{Var}(\bar{X}) + [E(\bar{X})]^2 = \frac{\sigma^2}{n} + \mu^2 \]

代入上式：

\[E\left( \sum_{i=1}^n (X_i - \bar{X})^2 \right) = n(\sigma^2 + \mu^2) - n\left( \frac{\sigma^2}{n} + \mu^2 \right) = n\sigma^2 + n\mu^2 - \sigma^2 - n\mu^2 = (n - 1)\sigma^2 \]

所以：

\[E\left( \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 \right) = \sigma^2 \]

✅ 结论

这就证明了：

样本方差 $ S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 $ 是总体方差 $ \sigma^2 $ 的无偏估计。

而如果用 $ n $ 作分母，则得到的是有偏估计，其期望为：

\[E\left( \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 \right) = \frac{n - 1}{n} \sigma^2 < \sigma^2 \]

📌 总结

方差公式	是否无偏	为什么
$\frac{1}{n}\sum(X_i-\bar{X})^2$	❌ 有偏	低估了总体方差
$\frac{1}{n-1}\sum(X_i-\bar{X})^2$	✅ 无偏	修正了自由度，使得期望等于总体方差

其它：一些证明（可以忽略）

1 为什么$$ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} $$

这个表示样本均值的方差。

✅ 为什么：

\[\text{Var}(\bar{X}) = \frac{\sigma^2}{n} \]

📌 解释：

假设我们从一个总体中抽取一个大小为 $ n $ 的独立随机样本：

\[X_1, X_2, \dots, X_n \]

每个 $ X_i $ 都来自同一个总体，具有相同的均值 $ \mu $ 和方差 $ \sigma^2 $。

样本均值为：

\[\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \]

那么它的方差为：

\[\text{Var}(\bar{X}) = \text{Var}\left( \frac{1}{n} \sum_{i=1}^n X_i \right) \]

利用方差的性质：

常数因子可以提出：$ \text{Var}(aX) = a^2 \text{Var}(X) $
独立变量的方差可加：$ \text{Var}(X_1 + X_2 + \cdots + X_n) = \text{Var}(X_1) + \text{Var}(X_2) + \cdots + \text{Var}(X_n) $

所以：

\[\text{Var}(\bar{X}) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(X_i) = \frac{1}{n^2} \cdot n \sigma^2 = \frac{\sigma^2}{n} \]

🧠 直观理解：

样本均值 $ \bar{X} $ 是所有样本点的平均值。
平均值会比单个观测值更稳定，所以它的方差会更小。
方差缩小的比例是 $ \frac{1}{n} $，因为平均了 $ n $ 个独立的观测。

📌 小结

公式	含义
$\text{Var}(\bar{X}) = \frac{\sigma^2}{n}$	样本均值的方差是总体方差除以样本容量 $ n $

posted @ 2025-05-24 10:42 懒惰的星期六阅读(484) 评论(0) 收藏举报

刷新页面返回顶部

方差公式	是否无偏	为什么
\(\frac{1}{n}\sum(X_i-\bar{X})^2\)	❌ 有偏	低估了总体方差
\(\frac{1}{n-1}\sum(X_i-\bar{X})^2\)	✅ 无偏	修正了自由度，使得期望等于总体方差

懒惰的星期六