昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

5.1C-R不等式


一、核心知识点讲解

1. 均方误差(MSE)与偏差-方差分解

在点估计中,我们用估计量 (\hat{\theta}(X)) 去估计真实参数 (\theta),其均方误差(Mean Squared Error, MSE)是衡量估计量精度的核心指标,定义为:
[
\text{MSE}(\hat{\theta}(X)) = \mathbb{E}\left[(\hat{\theta}(X) - \theta)^2\right]
]

通过展开平方项,可以得到著名的偏差-方差分解公式
[
\text{MSE}(\hat{\theta}(X)) = \text{Var}(\hat{\theta}(X)) + \left[\text{bias}(\hat{\theta}(X))\right]^2
]

其中:

  • (\text{Var}(\hat{\theta}(X))):估计量的方差,反映了估计量自身的波动程度。
  • (\text{bias}(\hat{\theta}(X)) = \mathbb{E}[\hat{\theta}(X)] - \theta):估计量的偏差,反映了估计量的期望与真实参数之间的系统误差。

直观理解:一个好的估计量,既希望偏差小(瞄准靶心),也希望方差小(射击集中)。在无偏估计((\text{bias}=0))的特殊情况下,MSE就等于方差。


2. C-R不等式(Cramér-Rao不等式)

C-R不等式是点估计理论中的一个里程碑,它给出了无偏估计量方差的下界,帮助我们判断一个无偏估计量是否已经达到了最优(即是否为有效估计)。

(1)定理条件(正则族)

设样本 (X = (X_1, \dots, X_n)^T) 来自分布 (f(x, \theta)),满足以下正则条件(C-R分布族):

  1. 支撑集与 (\theta) 无关
    (S_\theta = {x: f(x, \theta) > 0}) 不依赖于 (\theta)。

  2. Fisher信息存在
    对数似然函数 (L(\theta) = \log f(x, \theta)) 关于 (\theta) 的一阶、二阶导数存在,且满足:
    [
    \mathbb{E}\theta\left[\frac{\partial}{\partial \theta} L(\theta, X)\right] = 0
    ]
    [
    I(\theta) = \mathbb{E}
    \theta\left[\left(\frac{\partial}{\partial \theta} L(\theta, X)\right)^2\right]
    = -\mathbb{E}_\theta\left[\frac{\partial^2}{\partial \theta^2} L(\theta, X)\right]
    ]
    其中 (I(\theta)) 称为Fisher信息

  3. 求导与积分可交换
    对 (\theta) 求导和对 (x) 求积分的顺序可以交换。

(2)定理结论

对于任意一个无偏估计量 (\hat{\theta}(X)),其方差满足:
[
\text{Var}(\hat{\theta}(X)) \ge \frac{1}{n I(\theta)}
]
当且仅当 (\hat{\theta}(X)) 是 (\theta) 的有效估计时,等号成立。

(3)证明过程

  1. 考虑无偏估计 (\hat{\theta}),即 (\mathbb{E}[\hat{\theta}] = \theta)。对其两边关于 (\theta) 求导:
    [
    \frac{d}{d\theta} \mathbb{E}[\hat{\theta}]
    = \frac{d}{d\theta} \int \hat{\theta}(x) f(x, \theta) dx = 1
    ]
    利用正则条件交换求导与积分:
    [
    \int \hat{\theta}(x) \frac{\partial f(x, \theta)}{\partial \theta} dx = 1
    ]

  2. 将上式改写为协方差形式。注意到 (\frac{\partial f}{\partial \theta} = f \cdot \frac{\partial \log f}{\partial \theta}),且 (\mathbb{E}\left[\frac{\partial \log f}{\partial \theta}\right] = 0),因此:
    [
    \text{Cov}\left(\hat{\theta}, \frac{\partial \log f(X, \theta)}{\partial \theta}\right)
    = \mathbb{E}\left[\hat{\theta} \cdot \frac{\partial \log f(X, \theta)}{\partial \theta}\right] = 1
    ]

  3. 根据柯西-施瓦茨不等式
    [
    \text{Cov}(U, V)^2 \le \text{Var}(U) \text{Var}(V)
    ]
    代入 (U = \hat{\theta}),(V = \frac{\partial \log f}{\partial \theta}):
    [
    1^2 \le \text{Var}(\hat{\theta}) \cdot \text{Var}\left(\frac{\partial \log f}{\partial \theta}\right)
    ]

  4. 由Fisher信息的定义,(\text{Var}\left(\frac{\partial \log f}{\partial \theta}\right) = I(\theta))。
    对于样本量为 (n) 的独立同分布样本,总Fisher信息为 (nI(\theta))。
    代入上式并整理,即得:
    [
    \text{Var}(\hat{\theta}) \ge \frac{1}{n I(\theta)}
    ]


3. 相合性(Consistency)

相合性关注的是当样本量 (n \to \infty) 时,估计量 (\hat{\theta}_n(X_1, \dots, X_n)) 的极限行为。

  • 定义
    如果估计量 (\hat{\theta}n) 依概率收敛到真实参数 (\theta),即对任意 (\varepsilon > 0),有
    [
    \lim
    P\left(|\hat{\theta}_n - \theta| > \varepsilon\right) = 0
    ]
    则称 (\hat{\theta}_n) 是 (\theta) 的相合估计

  • 重要结论
    对于很多常见的估计(如极大似然估计),在满足正则条件下,(\sqrt{n}(\hat{\theta}_n - \theta)) 会渐近服从正态分布,这保证了估计量的渐近正态性和相合性。


二、知识点归纳总结表

知识点 核心定义/公式 关键意义 备注
均方误差 (MSE) (\text{MSE}(\hat{\theta}) = \mathbb{E}[(\hat{\theta} - \theta)^2]) 综合衡量估计量的精度 分解为方差与偏差平方之和
偏差-方差分解 (\text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + [\text{bias}(\hat{\theta})]^2) 揭示了估计误差的两个来源 无偏估计下,(\text{MSE} = \text{Var})
Fisher信息 (I(\theta) = \mathbb{E}\left[\left(\frac{\partial \log f}{\partial \theta}\right)^2\right]) 衡量样本中包含的关于参数 (\theta) 的信息量 正则族条件下存在,与样本量 (n) 成正比
C-R不等式 (\text{Var}(\hat{\theta}) \ge \dfrac{1}{n I(\theta)})(无偏估计) 给出了无偏估计方差的理论下界 达到下界的估计称为“有效估计”
相合性 (\hat{\theta}_n \xrightarrow{P} \theta)((n \to \infty)) 保证大样本下估计量收敛到真实值 是对估计量的基本大样本要求

三、反例分析(非正则族)

C-R不等式的成立依赖于正则族条件。如果不满足,结论可能不成立。

  1. 均匀分布 (X \sim U(0, \theta))

    • 密度函数:(f(x, \theta) = \frac{1}{\theta} I(0 < x < \theta))
    • 支撑集 (S_\theta = (0, \theta)) 与 (\theta) 有关,不满足正则条件。
    • 最大次序统计量 (X_{(n)} = \max(X_1, \dots, X_n)) 是 (\theta) 的估计,其方差
      [
      \text{Var}(X_{(n)}) = \frac{n\theta2}{(n+1)2(n+2)}
      ]
      而按C-R下界计算为 (\frac{\theta^2}{n})。
      当 (n) 很大时,(\text{Var}(X_{(n)})) 远小于C-R下界,这说明在非正则族中,C-R不等式不适用。
  2. 带位置参数的指数分布 (X \sim \mu + \text{Exp}(1))

    • 密度函数:(f(x, \mu) = e^{-(x-\mu)} I(x \ge \mu))
    • 支撑集 (S_\mu = (\mu, +\infty)) 与 (\mu) 有关,不满足正则条件。
    • 最小次序统计量 (X_{(1)} = \min(X_1, \dots, X_n)) 是 (\mu) 的无偏估计,其方差
      [
      \text{Var}(X_{(1)}) = \frac{1}{n^2}
      ]
      同样小于按C-R公式计算的下界。

四、总结

  • 小样本下:我们通过C-R不等式来寻找最优的无偏估计(有效估计)。
  • 大样本下:我们关注估计量的相合性和渐近正态性,确保随着数据增多,估计越来越准确。
  • 注意前提:C-R不等式的应用有严格的正则条件,在非正则族中需要特别小心。

posted on 2026-02-24 15:08  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航