返回博主主页

为什么样本方差要用 n - 1而不是 n 才是无偏估计?

为什么样本方差要用 $ n - 1 $ 而不是 $ n $ 才是无偏估计?
方差与标准差 - 国家统计局

也就是说,你想知道:

为什么样本方差 $ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 $ 是总体方差 $ \sigma^2 $ 的无偏估计?

下面详细证明这一点。


🧮 一、定义与符号

设总体服从分布 $ X $,其均值为 $ \mu $,方差为 $ \sigma^2 $。

我们从总体中随机抽取一个容量为 $ n $ 的样本:

\[X_1, X_2, \dots, X_n \]

样本均值为:

\[\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \]

样本方差有两个版本:

  • 有偏方差(用 $ n $ 作分母)

    \[S^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 \]

  • 无偏方差(用 $ n - 1 $ 作分母)

    \[S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 \]

我们要证明的是:无偏方差的期望等于总体方差,即:

\[E\left( \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 \right) = \sigma^2 \]


🧮 二、证明过程

我们从样本方差的表达式出发:

\[\sum_{i=1}^n (X_i - \bar{X})^2 \]

展开平方项:

\[= \sum_{i=1}^n (X_i^2 - 2X_i \bar{X} + \bar{X}^2) = \sum_{i=1}^n X_i^2 - 2\bar{X} \sum_{i=1}^n X_i + n \bar{X}^2 \]

注意到 $ \sum_{i=1}^n X_i = n \bar{X} $,代入得:

\[= \sum_{i=1}^n X_i^2 - 2\bar{X}(n \bar{X}) + n \bar{X}^2 = \sum_{i=1}^n X_i^2 - n \bar{X}^2 \]

所以:

\[\sum_{i=1}^n (X_i - \bar{X})^2 = \sum_{i=1}^n X_i^2 - n \bar{X}^2 \]

接下来求期望:

\[E\left( \sum_{i=1}^n (X_i - \bar{X})^2 \right) = E\left( \sum_{i=1}^n X_i^2 - n \bar{X}^2 \right) = \sum_{i=1}^n E(X_i^2) - n E(\bar{X}^2) \]

由于 $ X_1, X_2, \dots, X_n $ 独立同分布,且 $ E(X_i) = \mu $ ,$ \text{Var}(X_i) = \sigma^2 $,所以:

  • $ E(X_i^2) = \text{Var}(X_i) + [E(X_i)]^2 = \sigma^2 + \mu^2 $
  • $ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i $,所以 $ E(\bar{X}) = \mu $ ,$ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} $

因此:

\[E(\bar{X}^2) = \text{Var}(\bar{X}) + [E(\bar{X})]^2 = \frac{\sigma^2}{n} + \mu^2 \]

代入上式:

\[E\left( \sum_{i=1}^n (X_i - \bar{X})^2 \right) = n(\sigma^2 + \mu^2) - n\left( \frac{\sigma^2}{n} + \mu^2 \right) = n\sigma^2 + n\mu^2 - \sigma^2 - n\mu^2 = (n - 1)\sigma^2 \]

所以:

\[E\left( \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 \right) = \sigma^2 \]


✅ 结论

这就证明了:

样本方差 $ S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 $ 是总体方差 $ \sigma^2 $ 的无偏估计。

而如果用 $ n $ 作分母,则得到的是有偏估计,其期望为:

\[E\left( \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 \right) = \frac{n - 1}{n} \sigma^2 < \sigma^2 \]


📌 总结

方差公式 是否无偏 为什么
\(\frac{1}{n}\sum(X_i-\bar{X})^2\) ❌ 有偏 低估了总体方差
\(\frac{1}{n-1}\sum(X_i-\bar{X})^2\) ✅ 无偏 修正了自由度,使得期望等于总体方差




其它:一些证明(可以忽略)

1 为什么$$ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} $$

这个表示样本均值的方差


✅ 为什么:

\[\text{Var}(\bar{X}) = \frac{\sigma^2}{n} \]

📌 解释:

假设我们从一个总体中抽取一个大小为 $ n $ 的独立随机样本

\[X_1, X_2, \dots, X_n \]

每个 $ X_i $ 都来自同一个总体,具有相同的均值 $ \mu $ 和方差 $ \sigma^2 $。

样本均值为:

\[\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \]

那么它的方差为:

\[\text{Var}(\bar{X}) = \text{Var}\left( \frac{1}{n} \sum_{i=1}^n X_i \right) \]

利用方差的性质:

  • 常数因子可以提出:$ \text{Var}(aX) = a^2 \text{Var}(X) $
  • 独立变量的方差可加:$ \text{Var}(X_1 + X_2 + \cdots + X_n) = \text{Var}(X_1) + \text{Var}(X_2) + \cdots + \text{Var}(X_n) $

所以:

\[\text{Var}(\bar{X}) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(X_i) = \frac{1}{n^2} \cdot n \sigma^2 = \frac{\sigma^2}{n} \]


🧠 直观理解:

  • 样本均值 $ \bar{X} $ 是所有样本点的平均值。
  • 平均值会比单个观测值更稳定,所以它的方差会更小。
  • 方差缩小的比例是 $ \frac{1}{n} $,因为平均了 $ n $ 个独立的观测。

📌 小结

公式 含义
\(\text{Var}(\bar{X}) = \frac{\sigma^2}{n}\) 样本均值的方差是总体方差除以样本容量 $ n $

posted @ 2025-05-24 10:42  懒惰的星期六  阅读(210)  评论(0)    收藏  举报

Welcome to here

主页