5.1C-R不等式
一、核心知识点讲解
1. 均方误差(MSE)与偏差-方差分解
在点估计中,我们用估计量 (\hat{\theta}(X)) 去估计真实参数 (\theta),其均方误差(Mean Squared Error, MSE)是衡量估计量精度的核心指标,定义为:
[
\text{MSE}(\hat{\theta}(X)) = \mathbb{E}\left[(\hat{\theta}(X) - \theta)^2\right]
]
通过展开平方项,可以得到著名的偏差-方差分解公式:
[
\text{MSE}(\hat{\theta}(X)) = \text{Var}(\hat{\theta}(X)) + \left[\text{bias}(\hat{\theta}(X))\right]^2
]
其中:
- (\text{Var}(\hat{\theta}(X))):估计量的方差,反映了估计量自身的波动程度。
- (\text{bias}(\hat{\theta}(X)) = \mathbb{E}[\hat{\theta}(X)] - \theta):估计量的偏差,反映了估计量的期望与真实参数之间的系统误差。
直观理解:一个好的估计量,既希望偏差小(瞄准靶心),也希望方差小(射击集中)。在无偏估计((\text{bias}=0))的特殊情况下,MSE就等于方差。
2. C-R不等式(Cramér-Rao不等式)
C-R不等式是点估计理论中的一个里程碑,它给出了无偏估计量方差的下界,帮助我们判断一个无偏估计量是否已经达到了最优(即是否为有效估计)。
(1)定理条件(正则族)
设样本 (X = (X_1, \dots, X_n)^T) 来自分布 (f(x, \theta)),满足以下正则条件(C-R分布族):
-
支撑集与 (\theta) 无关:
(S_\theta = {x: f(x, \theta) > 0}) 不依赖于 (\theta)。 -
Fisher信息存在:
对数似然函数 (L(\theta) = \log f(x, \theta)) 关于 (\theta) 的一阶、二阶导数存在,且满足:
[
\mathbb{E}\theta\left[\frac{\partial}{\partial \theta} L(\theta, X)\right] = 0
]
[
I(\theta) = \mathbb{E}\theta\left[\left(\frac{\partial}{\partial \theta} L(\theta, X)\right)^2\right]
= -\mathbb{E}_\theta\left[\frac{\partial^2}{\partial \theta^2} L(\theta, X)\right]
]
其中 (I(\theta)) 称为Fisher信息。 -
求导与积分可交换:
对 (\theta) 求导和对 (x) 求积分的顺序可以交换。
(2)定理结论
对于任意一个无偏估计量 (\hat{\theta}(X)),其方差满足:
[
\text{Var}(\hat{\theta}(X)) \ge \frac{1}{n I(\theta)}
]
当且仅当 (\hat{\theta}(X)) 是 (\theta) 的有效估计时,等号成立。
(3)证明过程
-
考虑无偏估计 (\hat{\theta}),即 (\mathbb{E}[\hat{\theta}] = \theta)。对其两边关于 (\theta) 求导:
[
\frac{d}{d\theta} \mathbb{E}[\hat{\theta}]
= \frac{d}{d\theta} \int \hat{\theta}(x) f(x, \theta) dx = 1
]
利用正则条件交换求导与积分:
[
\int \hat{\theta}(x) \frac{\partial f(x, \theta)}{\partial \theta} dx = 1
] -
将上式改写为协方差形式。注意到 (\frac{\partial f}{\partial \theta} = f \cdot \frac{\partial \log f}{\partial \theta}),且 (\mathbb{E}\left[\frac{\partial \log f}{\partial \theta}\right] = 0),因此:
[
\text{Cov}\left(\hat{\theta}, \frac{\partial \log f(X, \theta)}{\partial \theta}\right)
= \mathbb{E}\left[\hat{\theta} \cdot \frac{\partial \log f(X, \theta)}{\partial \theta}\right] = 1
] -
根据柯西-施瓦茨不等式
[
\text{Cov}(U, V)^2 \le \text{Var}(U) \text{Var}(V)
]
代入 (U = \hat{\theta}),(V = \frac{\partial \log f}{\partial \theta}):
[
1^2 \le \text{Var}(\hat{\theta}) \cdot \text{Var}\left(\frac{\partial \log f}{\partial \theta}\right)
] -
由Fisher信息的定义,(\text{Var}\left(\frac{\partial \log f}{\partial \theta}\right) = I(\theta))。
对于样本量为 (n) 的独立同分布样本,总Fisher信息为 (nI(\theta))。
代入上式并整理,即得:
[
\text{Var}(\hat{\theta}) \ge \frac{1}{n I(\theta)}
]
3. 相合性(Consistency)
相合性关注的是当样本量 (n \to \infty) 时,估计量 (\hat{\theta}_n(X_1, \dots, X_n)) 的极限行为。
-
定义:
如果估计量 (\hat{\theta}n) 依概率收敛到真实参数 (\theta),即对任意 (\varepsilon > 0),有
[
\lim P\left(|\hat{\theta}_n - \theta| > \varepsilon\right) = 0
]
则称 (\hat{\theta}_n) 是 (\theta) 的相合估计。 -
重要结论:
对于很多常见的估计(如极大似然估计),在满足正则条件下,(\sqrt{n}(\hat{\theta}_n - \theta)) 会渐近服从正态分布,这保证了估计量的渐近正态性和相合性。
二、知识点归纳总结表
| 知识点 | 核心定义/公式 | 关键意义 | 备注 |
|---|---|---|---|
| 均方误差 (MSE) | (\text{MSE}(\hat{\theta}) = \mathbb{E}[(\hat{\theta} - \theta)^2]) | 综合衡量估计量的精度 | 分解为方差与偏差平方之和 |
| 偏差-方差分解 | (\text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + [\text{bias}(\hat{\theta})]^2) | 揭示了估计误差的两个来源 | 无偏估计下,(\text{MSE} = \text{Var}) |
| Fisher信息 | (I(\theta) = \mathbb{E}\left[\left(\frac{\partial \log f}{\partial \theta}\right)^2\right]) | 衡量样本中包含的关于参数 (\theta) 的信息量 | 正则族条件下存在,与样本量 (n) 成正比 |
| C-R不等式 | (\text{Var}(\hat{\theta}) \ge \dfrac{1}{n I(\theta)})(无偏估计) | 给出了无偏估计方差的理论下界 | 达到下界的估计称为“有效估计” |
| 相合性 | (\hat{\theta}_n \xrightarrow{P} \theta)((n \to \infty)) | 保证大样本下估计量收敛到真实值 | 是对估计量的基本大样本要求 |
三、反例分析(非正则族)
C-R不等式的成立依赖于正则族条件。如果不满足,结论可能不成立。
-
均匀分布 (X \sim U(0, \theta))
- 密度函数:(f(x, \theta) = \frac{1}{\theta} I(0 < x < \theta))
- 支撑集 (S_\theta = (0, \theta)) 与 (\theta) 有关,不满足正则条件。
- 最大次序统计量 (X_{(n)} = \max(X_1, \dots, X_n)) 是 (\theta) 的估计,其方差
[
\text{Var}(X_{(n)}) = \frac{n\theta2}{(n+1)2(n+2)}
]
而按C-R下界计算为 (\frac{\theta^2}{n})。
当 (n) 很大时,(\text{Var}(X_{(n)})) 远小于C-R下界,这说明在非正则族中,C-R不等式不适用。
-
带位置参数的指数分布 (X \sim \mu + \text{Exp}(1))
- 密度函数:(f(x, \mu) = e^{-(x-\mu)} I(x \ge \mu))
- 支撑集 (S_\mu = (\mu, +\infty)) 与 (\mu) 有关,不满足正则条件。
- 最小次序统计量 (X_{(1)} = \min(X_1, \dots, X_n)) 是 (\mu) 的无偏估计,其方差
[
\text{Var}(X_{(1)}) = \frac{1}{n^2}
]
同样小于按C-R公式计算的下界。
四、总结
- 小样本下:我们通过C-R不等式来寻找最优的无偏估计(有效估计)。
- 大样本下:我们关注估计量的相合性和渐近正态性,确保随着数据增多,估计越来越准确。
- 注意前提:C-R不等式的应用有严格的正则条件,在非正则族中需要特别小心。
posted on 2026-02-24 15:08 Indian_Mysore 阅读(0) 评论(0) 收藏 举报
浙公网安备 33010602011771号