昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

5.1.4多参数C-R(Cramér-Rao)不等式

多参数C-R(Cramér-Rao)不等式 详细讲解与推导证明

作为数理统计中参数估计的核心理论,多参数C-R不等式是单参数C-R不等式的高维推广,它给出了多维参数向量的函数的任意无偏估计的方差矩阵的理论下界,是判断估计量有效性的核心标准。以下从基础概念、引理证明、主定理推导、推论解析四个维度展开,最后用表格完成系统性归纳。


一、前置基础概念(核心铺垫)

我们首先明确多参数场景下的核心定义与正则条件,所有结论均建立在以下前提之上。

1. 基本设定

设总体\(X \sim \{f(x,\theta), \theta \in \Theta\}\),其中:

  • 参数\(\theta = (\theta_1,\theta_2,\dots,\theta_p)^T\)p维列向量,参数空间\(\Theta \subset \mathbb{R}^p\)(p维欧氏空间的开子集);
  • \(f(x,\theta)\)是总体的概率密度函数(连续型)/概率质量函数(离散型),该分布族称为C-R分布族
  • 待估目标是\(\theta\)的k维向量函数\(g(\theta) = (g_1(\theta),g_2(\theta),\dots,g_k(\theta))^T\),其估计量为\(\widehat{g}(X) = (\widehat{g}_1(X),\dots,\widehat{g}_k(X))^T\)
  • 无偏性定义:\(\mathbb{E}_\theta[\widehat{g}(X)] = g(\theta), \ \forall \theta \in \Theta\),即每个分量满足\(\mathbb{E}_\theta[\widehat{g}_i(X)] = g_i(\theta)\)

2. C-R正则条件(多参数版)

所有结论成立的前提,核心是保证微分与积分可交换、Fisher信息矩阵可逆:

  1. 参数空间\(\Theta\)\(\mathbb{R}^p\)中的开集;
  2. 分布族的支撑集\(\{x: f(x,\theta)>0\}\)与参数\(\theta\)无关;
  3. 对数似然\(\log f(x,\theta)\)\(\theta\)的每个分量\(\theta_i\)的一阶偏导数均存在;
  4. 积分与微分可交换次序:对\(f(x,\theta)\)关于\(\theta_i\)求导和对\(x\)积分(求和)可交换顺序;
  5. Fisher信息矩阵\(I(\theta)\)存在且为正定矩阵(保证可逆)。

3. 得分函数(Score Function)

多参数下得分函数是p维列向量,是连接估计量与Fisher信息的核心桥梁:

\[S(x,\theta) = \left(S_1(x,\theta), S_2(x,\theta), \dots, S_p(x,\theta)\right)^T_{p \times 1} \]

其中分量定义为:

\[S_i(x,\theta) = \frac{\partial}{\partial \theta_i} \log f(x,\theta) = \frac{1}{f(x,\theta)} \frac{\partial f(x,\theta)}{\partial \theta_i}, \quad i=1,2,\dots,p \]

得分函数的核心性质(证明见下文)

  1. 零期望:\(\mathbb{E}_\theta[S(X,\theta)] = 0_{p \times 1}\)(p维零向量);
  2. 方差等于Fisher信息矩阵:\(\text{Var}_\theta[S(X,\theta)] = \mathbb{E}_\theta\left[S(X,\theta)S^T(X,\theta)\right] = I(\theta)_{p \times p}\)

4. Fisher信息矩阵

p×p对称正定矩阵,刻画了样本中包含的关于参数\(\theta\)的信息量,其元素定义为:

\[I_{ij}(\theta) = \mathbb{E}_\theta\left[ S_i(X,\theta) S_j(X,\theta) \right] = \mathbb{E}_\theta\left[ \frac{\partial \log f}{\partial \theta_i} \cdot \frac{\partial \log f}{\partial \theta_j} \right] \]

5. 矩阵半正定不等式的含义

对于两个同阶对称矩阵\(A,B\)\(A \geq B\)的含义是:\(A-B\)为半正定矩阵。这是多参数C-R不等式的核心符号定义,是标量“≥”的矩阵推广。


二、引理5.1.5 详细讲解与完整证明

引理内容

\(X \sim \{f(x,\theta), \theta \in \Theta\}\)为C-R分布族,\(\widehat{g}(X)\)\(g(\theta)\)的无偏估计,则有

\[\text{Cov}_\theta\left( \widehat{g}(X), S(X,\theta) \right) = \mathbb{E}_\theta\left[ \widehat{g}(X) S^T(X,\theta) \right] = \frac{\partial g(\theta)}{\partial \theta^T} \triangleq G(\theta) = (G_{ij}(\theta))_{k \times p} \]

其中分量形式:

\[G_{ij}(\theta) = \text{Cov}_\theta(\widehat{g}_i, S_j) = \mathbb{E}_\theta(\widehat{g}_i S_j) = \frac{\partial g_i(\theta)}{\partial \theta_j}, \quad i=1,\dots,k; \ j=1,\dots,p \]

引理意义

该引理给出了估计量与得分函数的交叉协方差矩阵,和待估函数对参数的雅可比矩阵(梯度矩阵)完全相等,是证明多参数C-R不等式的核心桥梁。

完整证明过程

步骤1:化简交叉协方差矩阵

对于k维随机向量\(\widehat{g}\)和p维随机向量\(S\),交叉协方差矩阵定义为:

\[\text{Cov}(\widehat{g}, S) = \mathbb{E}\left[ (\widehat{g} - \mathbb{E}\widehat{g}) (S - \mathbb{E}S)^T \right] \]

由无偏性\(\mathbb{E}\widehat{g}=g(\theta)\),且得分函数零期望\(\mathbb{E}S=0\),代入得:

\[\text{Cov}(\widehat{g}, S) = \mathbb{E}\left[ (\widehat{g} - g(\theta)) S^T \right] = \mathbb{E}[\widehat{g} S^T] - g(\theta) \mathbb{E}[S^T] = \mathbb{E}[\widehat{g} S^T] \]

即交叉协方差矩阵等价于\(\mathbb{E}[\widehat{g} S^T]\)

步骤2:证明分量形式(矩阵相等等价于所有分量相等)

对任意固定的\(i \in \{1,\dots,k\}, j \in \{1,\dots,p\}\),展开期望:

\[\mathbb{E}_\theta\left[ \widehat{g}_i(X) S_j(X,\theta) \right] = \int_{\mathbb{R}} \widehat{g}_i(x) \cdot S_j(x,\theta) \cdot f(x,\theta) d\mu(x) \]

代入得分函数定义\(S_j(x,\theta) = \frac{1}{f(x,\theta)} \frac{\partial f(x,\theta)}{\partial \theta_j}\),约去\(f(x,\theta)\)(支撑集上\(f>0\)),化简得:

\[\mathbb{E}_\theta\left[ \widehat{g}_i(X) S_j(X,\theta) \right] = \int_{\mathbb{R}} \widehat{g}_i(x) \cdot \frac{\partial f(x,\theta)}{\partial \theta_j} d\mu(x) \]

步骤3:交换微分与积分次序(正则条件保证)

根据C-R正则条件,微分与积分可交换,将对\(\theta_j\)的偏导数移到积分外:

\[\int_{\mathbb{R}} \widehat{g}_i(x) \cdot \frac{\partial f(x,\theta)}{\partial \theta_j} d\mu(x) = \frac{\partial}{\partial \theta_j} \int_{\mathbb{R}} \widehat{g}_i(x) f(x,\theta) d\mu(x) \]

步骤4:利用无偏性完成证明

积分项\(\int_{\mathbb{R}} \widehat{g}_i(x) f(x,\theta) d\mu(x) = \mathbb{E}_\theta[\widehat{g}_i(X)]\),由无偏性,\(\mathbb{E}_\theta[\widehat{g}_i(X)] = g_i(\theta)\),因此:

\[\frac{\partial}{\partial \theta_j} \int_{\mathbb{R}} \widehat{g}_i(x) f(x,\theta) d\mu(x) = \frac{\partial g_i(\theta)}{\partial \theta_j} = G_{ij}(\theta) \]

综上,对所有\(i,j\)分量均成立,因此矩阵形式成立,引理得证。


三、定理5.1.6(多参数C-R不等式) 详细讲解与完整证明

定理内容

\(X \sim \{f(x,\theta), \theta \in \Theta\}\)为C-R分布族,\(\widehat{g}(X)\)\(g(\theta)\)的无偏估计,则有

\[\text{Var}_\theta\left[ \widehat{g}(X) \right] \geq G(\theta) I^{-1}(\theta) G^T(\theta) \tag{5.1.20} \]

且等式成立的充要条件为:

\[\widehat{g}(x) - g(\theta) = C(\theta) S(x,\theta), \quad C(\theta) = G(\theta) I^{-1}(\theta) \tag{5.1.21} \]

定理意义

该定理给出了k维待估函数的任意无偏估计的方差矩阵的下界(Cramér-Rao下界,CRLB):任何无偏估计的方差矩阵减去该下界矩阵,结果必为半正定矩阵。当且仅当估计量与得分函数线性相关时,方差达到下界,此时该估计量为有效估计量

完整证明过程

核心工具

任意随机向量的方差矩阵必为半正定矩阵,即对任意随机向量\(Z\),有\(\text{Var}(Z) \geq 0\)

步骤1:构造辅助随机向量

构造k维随机向量:

\[Z = \widehat{g}(X) - G(\theta) I^{-1}(\theta) S(X,\theta) \]

我们将通过\(\text{Var}(Z) \geq 0\)推导不等式。

步骤2:方差矩阵的展开公式

对于随机向量\(U,V\)和常数矩阵\(A\),有矩阵形式的方差展开式:

\[\text{Var}(U - A V) = \text{Var}(U) - A \text{Cov}(V, U) - \text{Cov}(U, V) A^T + A \text{Var}(V) A^T \]

该式是标量方差公式\(\text{Var}(X-aY) = \text{Var}X - 2a\text{Cov}(X,Y) + a^2\text{Var}Y\)的高维推广,可通过方差定义直接展开验证。

步骤3:代入已知量展开\(\text{Var}(Z)\)

\(U=\widehat{g}\)\(V=S\)\(A=G(\theta)I^{-1}(\theta)\),结合引理与得分函数性质,明确已知量:

  1. \(\text{Var}(U) = \text{Var}(\widehat{g})\)
  2. \(\text{Cov}(U,V) = \text{Cov}(\widehat{g},S) = G(\theta)\)(引理5.1.5);
  3. \(\text{Cov}(V,U) = \text{Cov}(S,\widehat{g}) = G^T(\theta)\)(协方差矩阵转置性质);
  4. \(\text{Var}(V) = \text{Var}(S) = I(\theta)\)(Fisher信息矩阵定义)。

将上述量代入方差展开式:

\[\text{Var}(Z) = \text{Var}(\widehat{g}) - A G^T - G A^T + A I(\theta) A^T \]

步骤4:化简各项

\(A=G I^{-1}(\theta)\)代入,结合\(I(\theta)\)的对称性(\(I^{-1}(\theta)\)也对称,即\((I^{-1})^T=I^{-1}\)):

  • 第二项:\(A G^T = G I^{-1} G^T\)
  • 第三项:\(G A^T = G (G I^{-1})^T = G (I^{-1})^T G^T = G I^{-1} G^T\)
  • 第四项:\(A I A^T = (G I^{-1}) I (G I^{-1})^T = G (I^{-1}I) I^{-1} G^T = G I^{-1} G^T\)

将三项代入\(\text{Var}(Z)\),合并同类项:

\[\text{Var}(Z) = \text{Var}(\widehat{g}) - G I^{-1} G^T - G I^{-1} G^T + G I^{-1} G^T = \text{Var}(\widehat{g}) - G I^{-1} G^T \]

步骤5:利用半正定性得到不等式

由随机向量方差的半正定性,\(\text{Var}(Z) \geq 0\),因此:

\[\text{Var}(\widehat{g}) - G I^{-1} G^T \geq 0 \]

移项即得多参数C-R不等式:

\[\text{Var}(\widehat{g}) \geq G(\theta) I^{-1}(\theta) G^T(\theta) \]


等号成立的充要条件证明

必要性(等式成立→线性关系)

\(\text{Var}(\widehat{g}) = G I^{-1} G^T\) 等价于 \(\text{Var}(Z) = 0\)
而随机向量方差为零矩阵的充要条件是:\(Z\)为与\(x\)无关的常数向量,即

\[Z = \widehat{g}(X) - G I^{-1} S(X,\theta) = a(\theta) \]

其中\(a(\theta)\)是仅依赖\(\theta\)的k维常数向量。

对等式两边取期望\(\mathbb{E}_\theta\)

  • 左边:\(\mathbb{E}_\theta\left[ \widehat{g} - G I^{-1} S \right] = \mathbb{E}[\widehat{g}] - G I^{-1} \mathbb{E}[S] = g(\theta)\)(无偏性+\(\mathbb{E}S=0\));
  • 右边:\(\mathbb{E}_\theta[a(\theta)] = a(\theta)\)

因此\(a(\theta)=g(\theta)\),代回原式得:

\[\widehat{g}(X) - g(\theta) = G I^{-1}(\theta) S(X,\theta) \]

\(C(\theta)=G I^{-1}(\theta)\),即得(5.1.21)式。

充分性(线性关系→等式成立)

\(\widehat{g}(x) - g(\theta) = C(\theta) S(x,\theta)\),则\(\widehat{g} - C S = g(\theta)\)(常数向量),因此\(\text{Var}(\widehat{g} - C S) = 0\)
结合前文推导,\(\text{Var}(\widehat{g} - C S) = \text{Var}(\widehat{g}) - G I^{-1} G^T = 0\),即\(\text{Var}(\widehat{g}) = G I^{-1} G^T\),等式成立。

综上,等号成立的充要条件得证。


四、三大推论 详细讲解与推导

推论1:参数本身的无偏估计的C-R下界

内容

\(\widehat{\theta}(X)\)\(\theta\)的无偏估计,则有

\[\text{Var}_\theta[\widehat{\theta}(X)] \geq I^{-1}(\theta) \]

推导与意义

这是主定理的特例:当待估函数\(g(\theta)=\theta\)时,\(k=p\),此时雅可比矩阵\(G(\theta) = \frac{\partial \theta}{\partial \theta^T} = I_p\)(p阶单位矩阵)。
代入主定理的下界:

\[G I^{-1} G^T = I_p \cdot I^{-1}(\theta) \cdot I_p = I^{-1}(\theta) \]

因此得到\(\text{Var}(\widehat{\theta}) \geq I^{-1}(\theta)\)

意义:给出了p维参数本身的无偏估计的方差下界,是多参数估计中最常用的结论,其对角线元素就是每个参数分量的无偏估计的方差下界。


推论2:有偏估计的C-R下界

内容

\(\mathbb{E}_\theta[\widehat{g}(X)] = g(\theta) + b(\theta)\)\(b(\theta)\)为估计量的偏差向量),则有

\[\text{Var}_\theta[\widehat{g}(X)] \geq \widetilde{G} I^{-1} \widetilde{G}^T, \quad \widetilde{G}_{ij} = \frac{\partial [g_i(\theta) + b_i(\theta)]}{\partial \theta_j} \]

推导与意义

将主定理的无偏性推广到有偏场景,重新计算交叉协方差矩阵:

\[\mathbb{E}[\widehat{g}_i S_j] = \frac{\partial}{\partial \theta_j} \mathbb{E}[\widehat{g}_i] = \frac{\partial [g_i(\theta)+b_i(\theta)]}{\partial \theta_j} = \widetilde{G}_{ij} \]

\(\text{Cov}(\widehat{g},S)=\widetilde{G}\),后续推导与主定理完全一致,最终得到有偏估计的C-R下界。

意义:将C-R不等式推广到有偏估计场景(如岭回归、压缩估计),当偏差\(b(\theta)=0\)时,退化为无偏估计的C-R不等式,是更通用的形式。


推论3:n个i.i.d.样本的C-R下界

内容

\(X_1, \dots, X_n\)独立同分布,单个样本\(X_1\)的Fisher信息矩阵为\(i(\theta)\),则有

\[\text{Var}_\theta[\widehat{g}(X)] \geq \frac{1}{n} G(\theta) i^{-1}(\theta) G^T(\theta) = O(n^{-1}) \]

\[\text{Var}_\theta[\widehat{\theta}(X)] \geq \frac{1}{n} i^{-1}(\theta) = O(n^{-1}) \]

推导与意义

首先证明:n个i.i.d.样本的联合Fisher信息矩阵\(I_n(\theta) = n \cdot i(\theta)\)
n个样本的联合对数似然为\(\log f(X,\theta) = \sum_{t=1}^n \log f(X_t,\theta)\),因此得分函数为:

\[S(X,\theta) = \sum_{t=1}^n S(X_t,\theta) \]

其中\(S(X_t,\theta)\)独立同分布,方差均为\(i(\theta)\),因此:

\[I_n(\theta) = \text{Var}(S(X,\theta)) = \sum_{t=1}^n \text{Var}(S(X_t,\theta)) = n \cdot i(\theta) \]

\(I_n^{-1}(\theta) = \frac{1}{n} i^{-1}(\theta)\),代入主定理与推论1,即得上述结论。

意义:这是实际应用中最常用的结论,刻画了样本量与估计精度的关系:C-R下界随样本量n以\(1/n\)的速度下降,样本量越大,估计的理论精度上限越高。


五、核心内容归纳总结表

类别 名称 核心条件 核心结论 核心意义
基础概念 得分函数 C-R正则条件满足 \(S(x,\theta) = \frac{\partial}{\partial \theta}\log f(x,\theta)\)\(\mathbb{E}[S]=0\)\(\text{Var}(S)=I(\theta)\) 连接样本分布与参数信息的核心工具,是C-R不等式的推导基础
基础概念 Fisher信息矩阵 C-R正则条件满足 \(I(\theta) = \mathbb{E}[S S^T]\),p×p对称正定矩阵 刻画样本中包含的关于参数\(\theta\)的信息量,矩阵越“大”,信息量越多
核心引理 引理5.1.5 C-R分布族,\(\widehat{g}\)\(g(\theta)\)的无偏估计 \(\text{Cov}(\widehat{g},S) = \frac{\partial g(\theta)}{\partial \theta^T} = G(\theta)\) 建立估计量与得分函数的协方差和待估函数梯度的等价关系,是主定理的核心桥梁
主定理 多参数C-R不等式 C-R分布族,\(\widehat{g}\)\(g(\theta)\)的无偏估计 \(\text{Var}(\widehat{g}) \geq G(\theta)I^{-1}(\theta)G^T(\theta)\) 给出多维待估函数的无偏估计的方差矩阵的理论下界,是判断估计量有效性的核心标准
主定理 等号成立条件 上述条件均满足 \(\widehat{g}(x)-g(\theta) = G(\theta)I^{-1}(\theta)S(x,\theta)\) 无偏估计达到C-R下界的充要条件是估计量与得分函数线性相关,此时估计量为有效估计量
核心推论 推论1 \(\widehat{\theta}\)\(\theta\)的无偏估计 \(\text{Var}(\widehat{\theta}) \geq I^{-1}(\theta)\) 给出参数本身的无偏估计的方差下界,是最常用的简化形式
核心推论 推论2 \(\mathbb{E}[\widehat{g}] = g(\theta)+b(\theta)\)(有偏估计) \(\text{Var}(\widehat{g}) \geq \widetilde{G}I^{-1}\widetilde{G}^T\)\(\widetilde{G} = \frac{\partial (g+b)}{\partial \theta^T}\) 将C-R不等式推广到有偏估计场景,适用范围更广
核心推论 推论3 \(X_1,\dots,X_n\)独立同分布,单个样本Fisher信息为\(i(\theta)\) \(\text{Var}(\widehat{g}) \geq \frac{1}{n}G i^{-1}G^T\)\(\text{Var}(\widehat{\theta}) \geq \frac{1}{n}i^{-1}\) 给出n个样本场景下的C-R下界,刻画了样本量与估计精度的量化关系

posted on 2026-02-24 22:15  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航