夫君子之行，静以修身，俭以养德；非澹泊无以明志，非宁静无以致远。夫学须静也，才须学也；非学无以广才，非志无以成学。怠慢则不能励精，险躁则不能冶性。年与时驰，意与岁去，遂成枯落，多不接世。悲守穷庐，将复何及！

5.1C-R不等式

一、核心知识点讲解

1. 均方误差（MSE）与偏差-方差分解

在点估计中，我们用估计量 (\hat{\theta}(X)) 去估计真实参数 (\theta)，其均方误差（Mean Squared Error, MSE）是衡量估计量精度的核心指标，定义为：
[
\text{MSE}(\hat{\theta}(X)) = \mathbb{E}\left[(\hat{\theta}(X) - \theta)^2\right]
]

通过展开平方项，可以得到著名的偏差-方差分解公式：
[
\text{MSE}(\hat{\theta}(X)) = \text{Var}(\hat{\theta}(X)) + \left[\text{bias}(\hat{\theta}(X))\right]^2
]

其中：

(\text{Var}(\hat{\theta}(X)))：估计量的方差，反映了估计量自身的波动程度。
(\text{bias}(\hat{\theta}(X)) = \mathbb{E}[\hat{\theta}(X)] - \theta)：估计量的偏差，反映了估计量的期望与真实参数之间的系统误差。

直观理解：一个好的估计量，既希望偏差小（瞄准靶心），也希望方差小（射击集中）。在无偏估计（(\text{bias}=0)）的特殊情况下，MSE就等于方差。

2. C-R不等式（Cramér-Rao不等式）

C-R不等式是点估计理论中的一个里程碑，它给出了无偏估计量方差的下界，帮助我们判断一个无偏估计量是否已经达到了最优（即是否为有效估计）。

（1）定理条件（正则族）

设样本 (X = (X_1, \dots, X_n)^T) 来自分布 (f(x, \theta))，满足以下正则条件（C-R分布族）：

支撑集与 (\theta) 无关：
(S_\theta = {x: f(x, \theta) > 0}) 不依赖于 (\theta)。
Fisher信息存在：
对数似然函数 (L(\theta) = \log f(x, \theta)) 关于 (\theta) 的一阶、二阶导数存在，且满足：
[
\mathbb{E}\theta\left[\frac{\partial}{\partial \theta} L(\theta, X)\right] = 0
]
[
I(\theta) = \mathbb{E}\theta\left[\left(\frac{\partial}{\partial \theta} L(\theta, X)\right)^2\right]
= -\mathbb{E}_\theta\left[\frac{\partial^2}{\partial \theta^2} L(\theta, X)\right]
]
其中 (I(\theta)) 称为Fisher信息。
求导与积分可交换：
对 (\theta) 求导和对 (x) 求积分的顺序可以交换。

（2）定理结论

对于任意一个无偏估计量 (\hat{\theta}(X))，其方差满足：
[
\text{Var}(\hat{\theta}(X)) \ge \frac{1}{n I(\theta)}
]
当且仅当 (\hat{\theta}(X)) 是 (\theta) 的有效估计时，等号成立。

（3）证明过程

考虑无偏估计 (\hat{\theta})，即 (\mathbb{E}[\hat{\theta}] = \theta)。对其两边关于 (\theta) 求导：
[
\frac{d}{d\theta} \mathbb{E}[\hat{\theta}]
= \frac{d}{d\theta} \int \hat{\theta}(x) f(x, \theta) dx = 1
]
利用正则条件交换求导与积分：
[
\int \hat{\theta}(x) \frac{\partial f(x, \theta)}{\partial \theta} dx = 1
]
将上式改写为协方差形式。注意到 (\frac{\partial f}{\partial \theta} = f \cdot \frac{\partial \log f}{\partial \theta})，且 (\mathbb{E}\left[\frac{\partial \log f}{\partial \theta}\right] = 0)，因此：
[
\text{Cov}\left(\hat{\theta}, \frac{\partial \log f(X, \theta)}{\partial \theta}\right)
= \mathbb{E}\left[\hat{\theta} \cdot \frac{\partial \log f(X, \theta)}{\partial \theta}\right] = 1
]
根据柯西-施瓦茨不等式
[
\text{Cov}(U, V)^2 \le \text{Var}(U) \text{Var}(V)
]
代入 (U = \hat{\theta})，(V = \frac{\partial \log f}{\partial \theta})：
[
1^2 \le \text{Var}(\hat{\theta}) \cdot \text{Var}\left(\frac{\partial \log f}{\partial \theta}\right)
]
由Fisher信息的定义，(\text{Var}\left(\frac{\partial \log f}{\partial \theta}\right) = I(\theta))。
对于样本量为 (n) 的独立同分布样本，总Fisher信息为 (nI(\theta))。
代入上式并整理，即得：
[
\text{Var}(\hat{\theta}) \ge \frac{1}{n I(\theta)}
]

3. 相合性（Consistency）

相合性关注的是当样本量 (n \to \infty) 时，估计量 (\hat{\theta}_n(X_1, \dots, X_n)) 的极限行为。

定义：
如果估计量 (\hat{\theta}n) 依概率收敛到真实参数 (\theta)，即对任意 (\varepsilon > 0)，有
[
\lim P\left(|\hat{\theta}_n - \theta| > \varepsilon\right) = 0
]
则称 (\hat{\theta}_n) 是 (\theta) 的相合估计。
重要结论：
对于很多常见的估计（如极大似然估计），在满足正则条件下，(\sqrt{n}(\hat{\theta}_n - \theta)) 会渐近服从正态分布，这保证了估计量的渐近正态性和相合性。

二、知识点归纳总结表

知识点	核心定义/公式	关键意义	备注
均方误差 (MSE)	(\text{MSE}(\hat{\theta}) = \mathbb{E}[(\hat{\theta} - \theta)^2])	综合衡量估计量的精度	分解为方差与偏差平方之和
偏差-方差分解	(\text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + [\text{bias}(\hat{\theta})]^2)	揭示了估计误差的两个来源	无偏估计下，(\text{MSE} = \text{Var})
Fisher信息	(I(\theta) = \mathbb{E}\left[\left(\frac{\partial \log f}{\partial \theta}\right)^2\right])	衡量样本中包含的关于参数 (\theta) 的信息量	正则族条件下存在，与样本量 (n) 成正比
C-R不等式	(\text{Var}(\hat{\theta}) \ge \dfrac{1}{n I(\theta)})（无偏估计）	给出了无偏估计方差的理论下界	达到下界的估计称为“有效估计”
相合性	(\hat{\theta}_n \xrightarrow{P} \theta)（(n \to \infty)）	保证大样本下估计量收敛到真实值	是对估计量的基本大样本要求

三、反例分析（非正则族）

C-R不等式的成立依赖于正则族条件。如果不满足，结论可能不成立。

均匀分布 (X \sim U(0, \theta))
- 密度函数：(f(x, \theta) = \frac{1}{\theta} I(0 < x < \theta))
- 支撑集 (S_\theta = (0, \theta)) 与 (\theta) 有关，不满足正则条件。
- 最大次序统计量 (X_{(n)} = \max(X_1, \dots, X_n)) 是 (\theta) 的估计，其方差
  [
  \text{Var}(X_{(n)}) = \frac{n\theta^2}{(n+1)2(n+2)}
  ]
  而按C-R下界计算为 (\frac{\theta^2}{n})。
  当 (n) 很大时，(\text{Var}(X_{(n)})) 远小于C-R下界，这说明在非正则族中，C-R不等式不适用。
带位置参数的指数分布 (X \sim \mu + \text{Exp}(1))
- 密度函数：(f(x, \mu) = e^{-(x-\mu)} I(x \ge \mu))
- 支撑集 (S_\mu = (\mu, +\infty)) 与 (\mu) 有关，不满足正则条件。
- 最小次序统计量 (X_{(1)} = \min(X_1, \dots, X_n)) 是 (\mu) 的无偏估计，其方差
  [
  \text{Var}(X_{(1)}) = \frac{1}{n^2}
  ]
  同样小于按C-R公式计算的下界。

四、总结

小样本下：我们通过C-R不等式来寻找最优的无偏估计（有效估计）。
大样本下：我们关注估计量的相合性和渐近正态性，确保随着数据增多，估计越来越准确。
注意前提：C-R不等式的应用有严格的正则条件，在非正则族中需要特别小心。

posted on 2026-02-24 15:08 Indian_Mysore 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

昆仑山:眼中无形心中有穴之穴人合一