昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

5.1.3Bhattacharyya(Bh)不等式

Bhattacharyya(Bh)不等式 详细讲解与推导

一、背景与核心定位

C-R(Cramér-Rao)不等式给出了无偏估计方差的下界,但存在明显局限:很多UMVUE(一致最小方差无偏估计)无法达到C-R下界。Bh不等式是C-R不等式的高阶推广,通过引入密度函数的各阶导数构造广义得分函数,得到一系列更紧的方差下界,完美解决了C-R下界“不够紧”的问题。

整个推导的核心基石是柯西-施瓦茨(Schwarz)不等式的概率形式
对任意方差存在的随机变量\(X,Y\),有

\[\text{Cov}^2(X,Y) \leq \text{Var}(X)\text{Var}(Y) \]

等号成立的充要条件是\(X,Y\)几乎处处线性相关,即存在常数\(a,b\),使得\(P(Y=aX+b)=1\)


二、基础引理推导

引理5.1.3 广义协方差下界

条件

\(\widetilde{S}(X,\theta)\)的方差存在,\(\widehat{g}(X)\)\(g(\theta)\)的估计量。

结论

\[\text{Var}_\theta[\widehat{g}(X)] \geq \frac{\text{Cov}_\theta^2(\widehat{g},\widetilde{S})}{\text{Var}_\theta(\widetilde{S})} \]

详细证明

直接将Schwarz不等式中的\(X\)替换为\(\widehat{g}(X)\)\(Y\)替换为\(\widetilde{S}(X,\theta)\),得:

\[\text{Cov}_\theta^2(\widehat{g},\widetilde{S}) \leq \text{Var}_\theta(\widehat{g})\text{Var}_\theta(\widetilde{S}) \]

由于\(\text{Var}_\theta(\widetilde{S})>0\),两边同时除以\(\text{Var}_\theta(\widetilde{S})\)并移项,即可得到结论。

核心意义:C-R不等式是该引理的特例(取\(\widetilde{S}\)为一阶得分函数);而Bh不等式是将\(\widetilde{S}\)拓展为各阶导数的得分函数向量,用矩阵形式的Schwarz不等式完成推广。


例5.1.5 单阶高阶下界(i阶推广)

条件

  1. 总体\(X \sim f(x,\theta),\theta\in\Theta\)\(\widehat{g}(X)\)\(g(\theta)\)的无偏估计;
  2. \(f(x,\theta)\)\(g(\theta)\)关于\(\theta\)\(i\)阶导数\(f^{(i)}(x,\theta)\)\(g^{(i)}(\theta)\)
  3. 满足C-R正则条件(积分与求导可交换)。

定义\(i\)阶得分函数:\(S^i(X,\theta)=\frac{f^{(i)}(x,\theta)}{f(x,\theta)}\),记\(V_{ii}=\text{Var}_\theta[S^i(X,\theta)]\)

结论

\[\text{Var}_\theta[\widehat{g}(X)] \geq \frac{[g^{(i)}(\theta)]^2}{V_{ii}} \]

详细证明

  1. 证明\(E_\theta[S^i(X,\theta)]=0\)

\[\begin{align*} E_\theta[S^i(X,\theta)] &= \int \frac{f^{(i)}(x,\theta)}{f(x,\theta)} \cdot f(x,\theta) d\mu(x) \\ &= \int f^{(i)}(x,\theta) d\mu(x) \\ &= \frac{\partial^i}{\partial \theta^i} \int f(x,\theta) d\mu(x) \quad (\text{正则条件,积分求导交换}) \\ &= \frac{\partial^i}{\partial \theta^i} 1 = 0 \end{align*} \]

  1. 计算协方差\(\text{Cov}_\theta(\widehat{g},S^i)\)
    由于\(E[S^i]=0\),协方差可简化为\(\text{Cov}(\widehat{g},S^i)=E[\widehat{g} S^i]\),展开得:

\[\begin{align*} E_\theta[\widehat{g}(X) S^i(X,\theta)] &= \int \widehat{g}(x) \cdot \frac{f^{(i)}(x,\theta)}{f(x,\theta)} \cdot f(x,\theta) d\mu(x) \\ &= \int \widehat{g}(x) f^{(i)}(x,\theta) d\mu(x) \\ &= \frac{\partial^i}{\partial \theta^i} \int \widehat{g}(x) f(x,\theta) d\mu(x) \quad (\text{正则条件}) \\ &= \frac{\partial^i}{\partial \theta^i} g(\theta) \quad (\widehat{g}是无偏估计,E[\widehat{g}]=g(\theta)) \\ &= g^{(i)}(\theta) \end{align*} \]

  1. 代入引理5.1.3得到结论
    \(\text{Cov}(\widehat{g},S^i)=g^{(i)}(\theta)\)\(\text{Var}(S^i)=V_{ii}\)代入引理5.1.3,得:

\[\text{Var}_\theta(\widehat{g}) \geq \frac{[g^{(i)}(\theta)]^2}{V_{ii}} \]

特例:当\(i=1\)时,\(S^1\)是一阶得分函数,\(V_{11}=I(\theta)\)(Fisher信息),上式退化为C-R不等式,验证了C-R是\(i=1\)的特例。


引理5.1.4 多阶得分函数的统计性质

为了将单阶推广到多阶,我们构造\(k\)阶得分函数向量:

\[\widetilde{S}(X,\theta) = (S^1(X,\theta), S^2(X,\theta), \dots, S^k(X,\theta))^T_{k\times 1} \]

其中\(S^i(X,\theta)=\frac{f^{(i)}(X,\theta)}{f(X,\theta)}\)

条件(Bh正则条件)

  1. \(\{f(x,\theta),\theta\in\Theta\}\)为C-R分布族,\(\widehat{g}(X)\)\(g(\theta)\)的无偏估计;
  2. \(f^{(k)}(x,\theta)\)存在,且关于\(x,\theta\)连续;
  3. \(E_\theta[S^i(X,\theta)]^2 < +\infty\)\(i=1,2,\dots,k\)(各阶得分函数二阶矩有限);
  4. \(E_\theta[\widehat{g}(X) S^i(X,\theta)]\)可在积分号下关于\(\theta\)求导,\(i=1,2,\dots,k\)

结论

  1. \(E_\theta[S^i(X,\theta)] = 0\)\(i=1,2,\dots,k\)
  2. 得分向量的协方差矩阵存在,记为\(V(\theta) = \text{Var}_\theta[\widetilde{S}(X,\theta)] = (V_{ij})_{k\times k}\),其中\(V_{ij}=\text{Cov}(S^i,S^j)\)
  3. 估计量与得分向量的协方差向量为:

\[\text{Cov}_\theta(\widehat{g}(X),\widetilde{S}(X,\theta)) = E_\theta[\widehat{g} \widetilde{S}^T] = (g'(\theta),g''(\theta),\dots,g^{(k)}(\theta)) \triangleq D^T(\theta)_{1\times k} \]

其中\(D(\theta)=(g'(\theta),g''(\theta),\dots,g^{(k)}(\theta))^T_{k\times 1}\)\(g(\theta)\)的1~k阶导数构成的列向量。

详细证明

该引理是例5.1.5的多阶推广,对\(i=1,2,\dots,k\)分别应用例5.1.5的结论即可:

  1. 对每个\(i\)\(E[S^i]=0\)已在例5.1.5中证明,结论1成立;
  2. 各阶得分函数二阶矩有限,因此任意两个\(S^i,S^j\)的协方差存在,协方差矩阵\(V(\theta)\)存在,结论2成立;
  3. 对每个\(i\)\(\text{Cov}(\widehat{g},S^i)=g^{(i)}(\theta)\),将其按顺序排列为向量,即得到协方差向量\(D^T(\theta)\),结论3成立。

三、核心定理:Bh不等式

定理5.1.4 Bhattacharyya不等式

条件

与引理5.1.4一致,且协方差矩阵\(V(\theta)\)可逆。

核心结论

\[\text{Var}_\theta[\widehat{g}(X)] \geq D^T(\theta) V^{-1}(\theta) D(\theta) \triangleq Bh_k \]

其中\(Bh_k\)称为\(k\)阶Bh下界。

等号成立的充要条件

\[\widehat{g}(x) - g(\theta) = D^T(\theta) V^{-1}(\theta) \widetilde{S}(x,\theta) \quad \text{几乎处处成立(a.e.)} \]

\(\widehat{g}(x)\)与得分向量\(\widetilde{S}(x,\theta)\)线性相关。


详细证明

步骤1:利用方差的非负性构造二次型

对任意常数行向量\(\lambda_{1\times k}\),考虑随机变量\(\widehat{g}(X) - \lambda \widetilde{S}(X,\theta)\),方差具有非负性:

\[\text{Var}_\theta\left(\widehat{g} - \lambda \widetilde{S}\right) \geq 0 \]

步骤2:展开方差表达式

\[\begin{align*} \text{Var}\left(\widehat{g} - \lambda \widetilde{S}\right) &= \text{Var}(\widehat{g}) - \lambda \text{Cov}(\widetilde{S},\widehat{g}) - \text{Cov}(\widehat{g},\widetilde{S}) \lambda^T + \lambda \text{Var}(\widetilde{S}) \lambda^T \\ &= \text{Var}(\widehat{g}) - \lambda D - D^T \lambda^T + \lambda V \lambda^T \end{align*} \]

其中\(\text{Cov}(\widehat{g},\widetilde{S})=D^T\)\(\text{Cov}(\widetilde{S},\widehat{g})=D\)\(\text{Var}(\widetilde{S})=V\)

步骤3:求方差最小值对应的\(\lambda\)

方差是关于\(\lambda\)的二次型,对\(\lambda\)求导并令导数为0,可得最小值点:

\[\lambda = D^T V^{-1} \]

步骤4:代入\(\lambda\)得到下界

\(\lambda=D^T V^{-1}\)代入方差展开式:

\[\begin{align*} \text{Var}\left(\widehat{g} - D^T V^{-1} \widetilde{S}\right) &= \text{Var}(\widehat{g}) - D^T V^{-1} D - D^T V^{-1} D + D^T V^{-1} V V^{-1} D \\ &= \text{Var}(\widehat{g}) - D^T V^{-1} D \end{align*} \]

由方差非负性,\(\text{Var}(\widehat{g}) - D^T V^{-1} D \geq 0\),即:

\[\text{Var}_\theta(\widehat{g}) \geq D^T(\theta) V^{-1}(\theta) D(\theta) \]

Bh不等式主体得证。


步骤5:证明等号成立的充要条件

方差\(\text{Var}\left(\widehat{g} - \lambda \widetilde{S}\right)=0\)的充要条件是:

\[\widehat{g}(X) - \lambda \widetilde{S}(X,\theta) = a(\theta) \quad \text{a.e.} \]

其中\(a(\theta)\)是与\(X\)无关的常数。

对等式两边取期望:

  • 左边:\(E[\widehat{g}] - \lambda E[\widetilde{S}] = g(\theta) - 0 = g(\theta)\)
  • 右边:\(E[a(\theta)] = a(\theta)\)

因此\(a(\theta)=g(\theta)\),代入\(\lambda=D^T V^{-1}\),得等号成立的充要条件:

\[\widehat{g}(x) - g(\theta) = D^T(\theta) V^{-1}(\theta) \widetilde{S}(x,\theta) \quad \text{a.e.} \]

证明完毕。


四、Bh不等式的重要推论

推论1:C-R下界是Bh下界的特例

\(k=1\)时,\(Bh_1\)即为C-R下界(CRLB)。

证明

\(k=1\)时,\(D(\theta)=g'(\theta)\)(标量),\(V(\theta)=\text{Var}(S^1)=I(\theta)\)(Fisher信息),因此:

\[Bh_1 = [g'(\theta)]^2 I(\theta)^{-1} \]

与C-R下界完全一致。


推论2:有偏估计的Bh不等式

若估计量存在偏倚,即\(E_\theta[\widehat{g}(X)] = g(\theta) + b_g(\theta)\),其中\(b_g(\theta)\)为偏倚,则Bh不等式推广为:

\[\text{Var}_\theta[\widehat{g}(X)] \geq \overline{D}^T(\theta) V^{-1}(\theta) \overline{D}(\theta) \]

其中\(\overline{D}(\theta)=(\overline{D}_1,\dots,\overline{D}_k)^T\)\(\overline{D}_i = g^{(i)}(\theta) + b_g^{(i)}(\theta)\)(偏倚的\(i\)阶导数与\(g\)\(i\)阶导数之和)。

证明

有偏情况下,\(E[\widehat{g} S^i] = \frac{\partial^i}{\partial \theta^i} E[\widehat{g}] = g^{(i)}(\theta)+b_g^{(i)}(\theta)\),协方差向量变为\(\overline{D}^T\),代入Bh不等式的形式即可得证。


五、Bh下界的核心性质:单调性

定理5.1.5 Bh下界的单调性

\(Bh_k \triangleq B_k(\theta) = D_k^T(\theta) V_k^{-1}(\theta) D_k(\theta)\),则当\(l \leq k\)时,有\(B_l(\theta) \leq B_k(\theta)\),即:

\[CRLB = Bh_1 \leq Bh_2 \leq \dots \leq Bh_k \leq \dots \leq \text{Var}_\theta(\widehat{g}) \]

核心意义:阶数\(k\)越高,Bh下界越紧,越接近估计量的真实方差,完美弥补了C-R下界的不足。


详细证明

采用分块矩阵求逆的方法:

  1. 分块处理:将\(k\)阶矩阵\(V_k\)和向量\(D_k\)按前\(l\)阶、后\(k-l\)阶分块:

\[V_k = \begin{pmatrix} V_{11} & V_{12} \\ V_{21} & V_{22} \end{pmatrix}, \quad D_k = \begin{pmatrix} D_1 \\ D_2 \end{pmatrix} \]

其中\(V_{11}=V_l\)\(l\)阶协方差矩阵),\(D_1=D_l\)\(l\)阶导数向量),因此\(B_l = D_1^T V_{11}^{-1} D_1\)

  1. 分块矩阵求逆公式

\[V_k^{-1} = \begin{pmatrix} V_{11}^{-1} & 0 \\ 0 & 0 \end{pmatrix} + \begin{pmatrix} G \\ -I_{k-l} \end{pmatrix} H^{-1} \begin{pmatrix} G^T & -I_{k-l} \end{pmatrix} \]

其中\(G=V_{11}^{-1}V_{12}\)\(H=V_{22}-V_{21}V_{11}^{-1}V_{12}\)(Schur补)。由于\(V\)是正定协方差矩阵,因此\(H \geq 0\)(半正定),\(H^{-1} \geq 0\)

  1. 代入计算\(B_k\)

\[\begin{align*} B_k &= D_k^T V_k^{-1} D_k \\ &= D_1^T V_{11}^{-1} D_1 + (D_1^T G - D_2^T) H^{-1} (G^T D_1 - D_2) \\ &= B_l + \text{非负二次型} \end{align*} \]

由于二次型非负,因此\(B_k \geq B_l\),单调性得证。

推论:\(B_k(\theta)=B_l(\theta)\)的充要条件是\(V_{21}V_{11}^{-1}D_1 - D_2=0\)


六、经典应用案例

例5.1.6 正态分布均值平方的UMVUE的Bh下界

\(X_1,\dots,X_n \overset{i.i.d.}{\sim} N(\theta,1)\),待估参数\(g(\theta)=\theta^2\),其UMVUE为\(T(X)=\overline{X}^2 - 1/n\)

步骤1:验证T是UMVUE

\(\overline{X}\)\(\theta\)的充分完备统计量,且\(E[T(X)]=E[\overline{X}^2]-1/n = (\text{Var}(\overline{X})+(E\overline{X})^2) -1/n = (1/n+\theta^2)-1/n=\theta^2\),因此\(T\)是无偏估计,由Lehmann-Scheffé定理,\(T\)是UMVUE。

步骤2:计算T的方差

\(\overline{Y}=\overline{X}-\theta \sim N(0,1/n)\),则\(T=(\overline{Y}+\theta)^2 -1/n = \overline{Y}^2 + 2\theta \overline{Y} + \theta^2 -1/n\),计算得:

\[\text{Var}(T) = \text{Var}(\overline{Y}^2) + 4\theta^2 \text{Var}(\overline{Y}) = \frac{2}{n^2} + \frac{4\theta^2}{n} \]

步骤3:对比C-R下界

\(g'(\theta)=2\theta\),Fisher信息\(I(\theta)=n\),C-R下界为\(\frac{[g'(\theta)]^2}{I(\theta)}=\frac{4\theta^2}{n}\),显然\(\text{Var}(T) > CRLB\),即T达不到C-R下界。

步骤4:计算\(Bh_2\)下界

  1. 1、2阶得分函数:
    \(S^1 = n(\overline{x}-\theta)\)\(S^2 = n^2(\overline{x}-\theta)^2 -n\)
  2. 导数向量:\(D_2=(2\theta,2)^T\)
  3. 协方差矩阵:\(V_2=\begin{pmatrix} n & 0 \\ 0 & 2n^2 \end{pmatrix}\),逆矩阵\(V_2^{-1}=\begin{pmatrix} 1/n & 0 \\ 0 & 1/(2n^2) \end{pmatrix}\)
  4. 计算\(Bh_2\)

\[Bh_2 = D_2^T V_2^{-1} D_2 = (2\theta,2)\begin{pmatrix} 1/n & 0 \\ 0 & 1/(2n^2) \end{pmatrix}\begin{pmatrix} 2\theta \\ 2 \end{pmatrix} = \frac{4\theta^2}{n} + \frac{2}{n^2} \]

结论

\(\text{Var}(T)=Bh_2\),即该UMVUE虽然达不到C-R下界,但可以达到2阶Bh下界,验证了Bh不等式的价值。


七、知识点归纳总结表

类别 核心内容 关键结论/公式 适用条件 核心意义
基础基石 Schwarz概率不等式 \(\text{Cov}^2(X,Y) \leq \text{Var}(X)\text{Var}(Y)\),等号当且仅当\(X,Y\)线性相关 \(X,Y\)的方差存在 所有C-R型不等式的推导核心
基础引理 广义协方差下界 \(\text{Var}(\widehat{g}) \geq \frac{\text{Cov}^2(\widehat{g},\widetilde{S})}{\text{Var}(\widetilde{S})}\) \(\widetilde{S}\)方差存在,\(\widehat{g}\)\(g(\theta)\)的估计量 连接C-R不等式与Bh不等式的桥梁
核心定理 Bh不等式 \(\text{Var}(\widehat{g}) \geq D^T(\theta) V^{-1}(\theta) D(\theta) = Bh_k\) 1. C-R正则族;2. \(f(x,\theta)\)k阶可导;3. \(V(\theta)\)可逆;4. 积分与求导可交换 C-R不等式的高阶推广,给出更紧的无偏估计方差下界
等号成立条件 Bh不等式等号成立 \(\widehat{g}(x)-g(\theta)=D^T V^{-1} \widetilde{S}(x,\theta) \ \text{a.e.}\) 同Bh不等式条件 给出估计量达到Bh下界的充要条件
核心推论1 C-R下界的关系 \(k=1\)时,\(Bh_1=CRLB\) 同C-R不等式条件 证明C-R是Bh的一阶特例
核心推论2 有偏估计推广 \(\text{Var}(\widehat{g}) \geq \overline{D}^T V^{-1} \overline{D}\)\(\overline{D}_i=g^{(i)}+b_g^{(i)}\) 估计量存在偏倚\(b_g(\theta)\),其余同Bh条件 将Bh不等式推广到有偏估计场景
核心性质 Bh下界单调性 \(Bh_1 \leq Bh_2 \leq \dots \leq Bh_k \leq \text{Var}(\widehat{g})\) 同Bh不等式条件 阶数k越高,下界越紧,越接近真实方差
典型应用 正态分布\(\theta^2\)估计 UMVUE\(T=\overline{X}^2-1/n\)达不到\(Bh_1\)(CRLB),但达到\(Bh_2\) \(X_1,\dots,X_n \sim N(\theta,1)\) 验证Bh不等式解决了C-R下界不够紧的问题

posted on 2026-02-24 22:10  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航