5.1.3Bhattacharyya(Bh)不等式
Bhattacharyya(Bh)不等式 详细讲解与推导
一、背景与核心定位
C-R(Cramér-Rao)不等式给出了无偏估计方差的下界,但存在明显局限:很多UMVUE(一致最小方差无偏估计)无法达到C-R下界。Bh不等式是C-R不等式的高阶推广,通过引入密度函数的各阶导数构造广义得分函数,得到一系列更紧的方差下界,完美解决了C-R下界“不够紧”的问题。
整个推导的核心基石是柯西-施瓦茨(Schwarz)不等式的概率形式:
对任意方差存在的随机变量\(X,Y\),有
等号成立的充要条件是\(X,Y\)几乎处处线性相关,即存在常数\(a,b\),使得\(P(Y=aX+b)=1\)。
二、基础引理推导
引理5.1.3 广义协方差下界
条件
\(\widetilde{S}(X,\theta)\)的方差存在,\(\widehat{g}(X)\)为\(g(\theta)\)的估计量。
结论
详细证明
直接将Schwarz不等式中的\(X\)替换为\(\widehat{g}(X)\),\(Y\)替换为\(\widetilde{S}(X,\theta)\),得:
由于\(\text{Var}_\theta(\widetilde{S})>0\),两边同时除以\(\text{Var}_\theta(\widetilde{S})\)并移项,即可得到结论。
核心意义:C-R不等式是该引理的特例(取\(\widetilde{S}\)为一阶得分函数);而Bh不等式是将\(\widetilde{S}\)拓展为各阶导数的得分函数向量,用矩阵形式的Schwarz不等式完成推广。
例5.1.5 单阶高阶下界(i阶推广)
条件
- 总体\(X \sim f(x,\theta),\theta\in\Theta\),\(\widehat{g}(X)\)是\(g(\theta)\)的无偏估计;
- \(f(x,\theta)\)和\(g(\theta)\)关于\(\theta\)有\(i\)阶导数\(f^{(i)}(x,\theta)\)、\(g^{(i)}(\theta)\);
- 满足C-R正则条件(积分与求导可交换)。
定义\(i\)阶得分函数:\(S^i(X,\theta)=\frac{f^{(i)}(x,\theta)}{f(x,\theta)}\),记\(V_{ii}=\text{Var}_\theta[S^i(X,\theta)]\)。
结论
详细证明
- 证明\(E_\theta[S^i(X,\theta)]=0\)
- 计算协方差\(\text{Cov}_\theta(\widehat{g},S^i)\)
由于\(E[S^i]=0\),协方差可简化为\(\text{Cov}(\widehat{g},S^i)=E[\widehat{g} S^i]\),展开得:
- 代入引理5.1.3得到结论
将\(\text{Cov}(\widehat{g},S^i)=g^{(i)}(\theta)\)、\(\text{Var}(S^i)=V_{ii}\)代入引理5.1.3,得:
特例:当\(i=1\)时,\(S^1\)是一阶得分函数,\(V_{11}=I(\theta)\)(Fisher信息),上式退化为C-R不等式,验证了C-R是\(i=1\)的特例。
引理5.1.4 多阶得分函数的统计性质
为了将单阶推广到多阶,我们构造\(k\)阶得分函数向量:
其中\(S^i(X,\theta)=\frac{f^{(i)}(X,\theta)}{f(X,\theta)}\)。
条件(Bh正则条件)
- \(\{f(x,\theta),\theta\in\Theta\}\)为C-R分布族,\(\widehat{g}(X)\)是\(g(\theta)\)的无偏估计;
- \(f^{(k)}(x,\theta)\)存在,且关于\(x,\theta\)连续;
- \(E_\theta[S^i(X,\theta)]^2 < +\infty\),\(i=1,2,\dots,k\)(各阶得分函数二阶矩有限);
- \(E_\theta[\widehat{g}(X) S^i(X,\theta)]\)可在积分号下关于\(\theta\)求导,\(i=1,2,\dots,k\)。
结论
- \(E_\theta[S^i(X,\theta)] = 0\),\(i=1,2,\dots,k\);
- 得分向量的协方差矩阵存在,记为\(V(\theta) = \text{Var}_\theta[\widetilde{S}(X,\theta)] = (V_{ij})_{k\times k}\),其中\(V_{ij}=\text{Cov}(S^i,S^j)\);
- 估计量与得分向量的协方差向量为:
其中\(D(\theta)=(g'(\theta),g''(\theta),\dots,g^{(k)}(\theta))^T_{k\times 1}\)为\(g(\theta)\)的1~k阶导数构成的列向量。
详细证明
该引理是例5.1.5的多阶推广,对\(i=1,2,\dots,k\)分别应用例5.1.5的结论即可:
- 对每个\(i\),\(E[S^i]=0\)已在例5.1.5中证明,结论1成立;
- 各阶得分函数二阶矩有限,因此任意两个\(S^i,S^j\)的协方差存在,协方差矩阵\(V(\theta)\)存在,结论2成立;
- 对每个\(i\),\(\text{Cov}(\widehat{g},S^i)=g^{(i)}(\theta)\),将其按顺序排列为向量,即得到协方差向量\(D^T(\theta)\),结论3成立。
三、核心定理:Bh不等式
定理5.1.4 Bhattacharyya不等式
条件
与引理5.1.4一致,且协方差矩阵\(V(\theta)\)可逆。
核心结论
其中\(Bh_k\)称为\(k\)阶Bh下界。
等号成立的充要条件
即\(\widehat{g}(x)\)与得分向量\(\widetilde{S}(x,\theta)\)线性相关。
详细证明
步骤1:利用方差的非负性构造二次型
对任意常数行向量\(\lambda_{1\times k}\),考虑随机变量\(\widehat{g}(X) - \lambda \widetilde{S}(X,\theta)\),方差具有非负性:
步骤2:展开方差表达式
其中\(\text{Cov}(\widehat{g},\widetilde{S})=D^T\),\(\text{Cov}(\widetilde{S},\widehat{g})=D\),\(\text{Var}(\widetilde{S})=V\)。
步骤3:求方差最小值对应的\(\lambda\)
方差是关于\(\lambda\)的二次型,对\(\lambda\)求导并令导数为0,可得最小值点:
步骤4:代入\(\lambda\)得到下界
将\(\lambda=D^T V^{-1}\)代入方差展开式:
由方差非负性,\(\text{Var}(\widehat{g}) - D^T V^{-1} D \geq 0\),即:
Bh不等式主体得证。
步骤5:证明等号成立的充要条件
方差\(\text{Var}\left(\widehat{g} - \lambda \widetilde{S}\right)=0\)的充要条件是:
其中\(a(\theta)\)是与\(X\)无关的常数。
对等式两边取期望:
- 左边:\(E[\widehat{g}] - \lambda E[\widetilde{S}] = g(\theta) - 0 = g(\theta)\)
- 右边:\(E[a(\theta)] = a(\theta)\)
因此\(a(\theta)=g(\theta)\),代入\(\lambda=D^T V^{-1}\),得等号成立的充要条件:
证明完毕。
四、Bh不等式的重要推论
推论1:C-R下界是Bh下界的特例
当\(k=1\)时,\(Bh_1\)即为C-R下界(CRLB)。
证明
\(k=1\)时,\(D(\theta)=g'(\theta)\)(标量),\(V(\theta)=\text{Var}(S^1)=I(\theta)\)(Fisher信息),因此:
与C-R下界完全一致。
推论2:有偏估计的Bh不等式
若估计量存在偏倚,即\(E_\theta[\widehat{g}(X)] = g(\theta) + b_g(\theta)\),其中\(b_g(\theta)\)为偏倚,则Bh不等式推广为:
其中\(\overline{D}(\theta)=(\overline{D}_1,\dots,\overline{D}_k)^T\),\(\overline{D}_i = g^{(i)}(\theta) + b_g^{(i)}(\theta)\)(偏倚的\(i\)阶导数与\(g\)的\(i\)阶导数之和)。
证明
有偏情况下,\(E[\widehat{g} S^i] = \frac{\partial^i}{\partial \theta^i} E[\widehat{g}] = g^{(i)}(\theta)+b_g^{(i)}(\theta)\),协方差向量变为\(\overline{D}^T\),代入Bh不等式的形式即可得证。
五、Bh下界的核心性质:单调性
定理5.1.5 Bh下界的单调性
记\(Bh_k \triangleq B_k(\theta) = D_k^T(\theta) V_k^{-1}(\theta) D_k(\theta)\),则当\(l \leq k\)时,有\(B_l(\theta) \leq B_k(\theta)\),即:
核心意义:阶数\(k\)越高,Bh下界越紧,越接近估计量的真实方差,完美弥补了C-R下界的不足。
详细证明
采用分块矩阵求逆的方法:
- 分块处理:将\(k\)阶矩阵\(V_k\)和向量\(D_k\)按前\(l\)阶、后\(k-l\)阶分块:
其中\(V_{11}=V_l\)(\(l\)阶协方差矩阵),\(D_1=D_l\)(\(l\)阶导数向量),因此\(B_l = D_1^T V_{11}^{-1} D_1\)。
- 分块矩阵求逆公式:
其中\(G=V_{11}^{-1}V_{12}\),\(H=V_{22}-V_{21}V_{11}^{-1}V_{12}\)(Schur补)。由于\(V\)是正定协方差矩阵,因此\(H \geq 0\)(半正定),\(H^{-1} \geq 0\)。
- 代入计算\(B_k\):
由于二次型非负,因此\(B_k \geq B_l\),单调性得证。
推论:\(B_k(\theta)=B_l(\theta)\)的充要条件是\(V_{21}V_{11}^{-1}D_1 - D_2=0\)。
六、经典应用案例
例5.1.6 正态分布均值平方的UMVUE的Bh下界
设\(X_1,\dots,X_n \overset{i.i.d.}{\sim} N(\theta,1)\),待估参数\(g(\theta)=\theta^2\),其UMVUE为\(T(X)=\overline{X}^2 - 1/n\)。
步骤1:验证T是UMVUE
\(\overline{X}\)是\(\theta\)的充分完备统计量,且\(E[T(X)]=E[\overline{X}^2]-1/n = (\text{Var}(\overline{X})+(E\overline{X})^2) -1/n = (1/n+\theta^2)-1/n=\theta^2\),因此\(T\)是无偏估计,由Lehmann-Scheffé定理,\(T\)是UMVUE。
步骤2:计算T的方差
令\(\overline{Y}=\overline{X}-\theta \sim N(0,1/n)\),则\(T=(\overline{Y}+\theta)^2 -1/n = \overline{Y}^2 + 2\theta \overline{Y} + \theta^2 -1/n\),计算得:
步骤3:对比C-R下界
\(g'(\theta)=2\theta\),Fisher信息\(I(\theta)=n\),C-R下界为\(\frac{[g'(\theta)]^2}{I(\theta)}=\frac{4\theta^2}{n}\),显然\(\text{Var}(T) > CRLB\),即T达不到C-R下界。
步骤4:计算\(Bh_2\)下界
- 1、2阶得分函数:
\(S^1 = n(\overline{x}-\theta)\),\(S^2 = n^2(\overline{x}-\theta)^2 -n\) - 导数向量:\(D_2=(2\theta,2)^T\)
- 协方差矩阵:\(V_2=\begin{pmatrix} n & 0 \\ 0 & 2n^2 \end{pmatrix}\),逆矩阵\(V_2^{-1}=\begin{pmatrix} 1/n & 0 \\ 0 & 1/(2n^2) \end{pmatrix}\)
- 计算\(Bh_2\):
结论
\(\text{Var}(T)=Bh_2\),即该UMVUE虽然达不到C-R下界,但可以达到2阶Bh下界,验证了Bh不等式的价值。
七、知识点归纳总结表
| 类别 | 核心内容 | 关键结论/公式 | 适用条件 | 核心意义 |
|---|---|---|---|---|
| 基础基石 | Schwarz概率不等式 | \(\text{Cov}^2(X,Y) \leq \text{Var}(X)\text{Var}(Y)\),等号当且仅当\(X,Y\)线性相关 | \(X,Y\)的方差存在 | 所有C-R型不等式的推导核心 |
| 基础引理 | 广义协方差下界 | \(\text{Var}(\widehat{g}) \geq \frac{\text{Cov}^2(\widehat{g},\widetilde{S})}{\text{Var}(\widetilde{S})}\) | \(\widetilde{S}\)方差存在,\(\widehat{g}\)为\(g(\theta)\)的估计量 | 连接C-R不等式与Bh不等式的桥梁 |
| 核心定理 | Bh不等式 | \(\text{Var}(\widehat{g}) \geq D^T(\theta) V^{-1}(\theta) D(\theta) = Bh_k\) | 1. C-R正则族;2. \(f(x,\theta)\)k阶可导;3. \(V(\theta)\)可逆;4. 积分与求导可交换 | C-R不等式的高阶推广,给出更紧的无偏估计方差下界 |
| 等号成立条件 | Bh不等式等号成立 | \(\widehat{g}(x)-g(\theta)=D^T V^{-1} \widetilde{S}(x,\theta) \ \text{a.e.}\) | 同Bh不等式条件 | 给出估计量达到Bh下界的充要条件 |
| 核心推论1 | C-R下界的关系 | \(k=1\)时,\(Bh_1=CRLB\) | 同C-R不等式条件 | 证明C-R是Bh的一阶特例 |
| 核心推论2 | 有偏估计推广 | \(\text{Var}(\widehat{g}) \geq \overline{D}^T V^{-1} \overline{D}\),\(\overline{D}_i=g^{(i)}+b_g^{(i)}\) | 估计量存在偏倚\(b_g(\theta)\),其余同Bh条件 | 将Bh不等式推广到有偏估计场景 |
| 核心性质 | Bh下界单调性 | \(Bh_1 \leq Bh_2 \leq \dots \leq Bh_k \leq \text{Var}(\widehat{g})\) | 同Bh不等式条件 | 阶数k越高,下界越紧,越接近真实方差 |
| 典型应用 | 正态分布\(\theta^2\)估计 | UMVUE\(T=\overline{X}^2-1/n\)达不到\(Bh_1\)(CRLB),但达到\(Bh_2\) | \(X_1,\dots,X_n \sim N(\theta,1)\) | 验证Bh不等式解决了C-R下界不够紧的问题 |
posted on 2026-02-24 22:10 Indian_Mysore 阅读(0) 评论(0) 收藏 举报
浙公网安备 33010602011771号