夫君子之行，静以修身，俭以养德；非澹泊无以明志，非宁静无以致远。夫学须静也，才须学也；非学无以广才，非志无以成学。怠慢则不能励精，险躁则不能冶性。年与时驰，意与岁去，遂成枯落，多不接世。悲守穷庐，将复何及！

5.1.3Bhattacharyya（Bh）不等式

Bhattacharyya（Bh）不等式详细讲解与推导

一、背景与核心定位

C-R（Cramér-Rao）不等式给出了无偏估计方差的下界，但存在明显局限：很多UMVUE（一致最小方差无偏估计）无法达到C-R下界。Bh不等式是C-R不等式的高阶推广，通过引入密度函数的各阶导数构造广义得分函数，得到一系列更紧的方差下界，完美解决了C-R下界“不够紧”的问题。

整个推导的核心基石是柯西-施瓦茨（Schwarz）不等式的概率形式：
对任意方差存在的随机变量\(X,Y\)，有

\[\text{Cov}^2(X,Y) \leq \text{Var}(X)\text{Var}(Y) \]

等号成立的充要条件是\(X,Y\)几乎处处线性相关，即存在常数\(a,b\)，使得\(P(Y=aX+b)=1\)。

二、基础引理推导

引理5.1.3 广义协方差下界

条件

\(\widetilde{S}(X,\theta)\)的方差存在，\(\widehat{g}(X)\)为\(g(\theta)\)的估计量。

结论

\[\text{Var}_\theta[\widehat{g}(X)] \geq \frac{\text{Cov}_\theta^2(\widehat{g},\widetilde{S})}{\text{Var}_\theta(\widetilde{S})} \]

详细证明

直接将Schwarz不等式中的\(X\)替换为\(\widehat{g}(X)\)，\(Y\)替换为\(\widetilde{S}(X,\theta)\)，得：

\[\text{Cov}_\theta^2(\widehat{g},\widetilde{S}) \leq \text{Var}_\theta(\widehat{g})\text{Var}_\theta(\widetilde{S}) \]

由于\(\text{Var}_\theta(\widetilde{S})>0\)，两边同时除以\(\text{Var}_\theta(\widetilde{S})\)并移项，即可得到结论。

核心意义：C-R不等式是该引理的特例（取\(\widetilde{S}\)为一阶得分函数）；而Bh不等式是将\(\widetilde{S}\)拓展为各阶导数的得分函数向量，用矩阵形式的Schwarz不等式完成推广。

例5.1.5 单阶高阶下界（i阶推广）

条件

总体\(X \sim f(x,\theta),\theta\in\Theta\)，\(\widehat{g}(X)\)是\(g(\theta)\)的无偏估计；
\(f(x,\theta)\)和\(g(\theta)\)关于\(\theta\)有\(i\)阶导数\(f^{(i)}(x,\theta)\)、\(g^{(i)}(\theta)\)；
满足C-R正则条件（积分与求导可交换）。

定义\(i\)阶得分函数：\(S^i(X,\theta)=\frac{f^{(i)}(x,\theta)}{f(x,\theta)}\)，记\(V_{ii}=\text{Var}_\theta[S^i(X,\theta)]\)。

结论

\[\text{Var}_\theta[\widehat{g}(X)] \geq \frac{[g^{(i)}(\theta)]^2}{V_{ii}} \]

详细证明

证明\(E_\theta[S^i(X,\theta)]=0\)

\[\begin{align*} E_\theta[S^i(X,\theta)] &= \int \frac{f^{(i)}(x,\theta)}{f(x,\theta)} \cdot f(x,\theta) d\mu(x) \\ &= \int f^{(i)}(x,\theta) d\mu(x) \\ &= \frac{\partial^i}{\partial \theta^i} \int f(x,\theta) d\mu(x) \quad (\text{正则条件，积分求导交换}) \\ &= \frac{\partial^i}{\partial \theta^i} 1 = 0 \end{align*} \]

计算协方差\(\text{Cov}_\theta(\widehat{g},S^i)\)
由于\(E[S^i]=0\)，协方差可简化为\(\text{Cov}(\widehat{g},S^i)=E[\widehat{g} S^i]\)，展开得：

\[\begin{align*} E_\theta[\widehat{g}(X) S^i(X,\theta)] &= \int \widehat{g}(x) \cdot \frac{f^{(i)}(x,\theta)}{f(x,\theta)} \cdot f(x,\theta) d\mu(x) \\ &= \int \widehat{g}(x) f^{(i)}(x,\theta) d\mu(x) \\ &= \frac{\partial^i}{\partial \theta^i} \int \widehat{g}(x) f(x,\theta) d\mu(x) \quad (\text{正则条件}) \\ &= \frac{\partial^i}{\partial \theta^i} g(\theta) \quad (\widehat{g}是无偏估计，E[\widehat{g}]=g(\theta)) \\ &= g^{(i)}(\theta) \end{align*} \]

代入引理5.1.3得到结论
将\(\text{Cov}(\widehat{g},S^i)=g^{(i)}(\theta)\)、\(\text{Var}(S^i)=V_{ii}\)代入引理5.1.3，得：

\[\text{Var}_\theta(\widehat{g}) \geq \frac{[g^{(i)}(\theta)]^2}{V_{ii}} \]

特例：当\(i=1\)时，\(S^1\)是一阶得分函数，\(V_{11}=I(\theta)\)（Fisher信息），上式退化为C-R不等式，验证了C-R是\(i=1\)的特例。

引理5.1.4 多阶得分函数的统计性质

为了将单阶推广到多阶，我们构造\(k\)阶得分函数向量：

\[\widetilde{S}(X,\theta) = (S^1(X,\theta), S^2(X,\theta), \dots, S^k(X,\theta))^T_{k\times 1} \]

其中\(S^i(X,\theta)=\frac{f^{(i)}(X,\theta)}{f(X,\theta)}\)。

条件（Bh正则条件）

\(\{f(x,\theta),\theta\in\Theta\}\)为C-R分布族，\(\widehat{g}(X)\)是\(g(\theta)\)的无偏估计；
\(f^{(k)}(x,\theta)\)存在，且关于\(x,\theta\)连续；
\(E_\theta[S^i(X,\theta)]^2 < +\infty\)，\(i=1,2,\dots,k\)（各阶得分函数二阶矩有限）；
\(E_\theta[\widehat{g}(X) S^i(X,\theta)]\)可在积分号下关于\(\theta\)求导，\(i=1,2,\dots,k\)。

结论

\(E_\theta[S^i(X,\theta)] = 0\)，\(i=1,2,\dots,k\)；
得分向量的协方差矩阵存在，记为\(V(\theta) = \text{Var}_\theta[\widetilde{S}(X,\theta)] = (V_{ij})_{k\times k}\)，其中\(V_{ij}=\text{Cov}(S^i,S^j)\)；
估计量与得分向量的协方差向量为：

\[\text{Cov}_\theta(\widehat{g}(X),\widetilde{S}(X,\theta)) = E_\theta[\widehat{g} \widetilde{S}^T] = (g'(\theta),g''(\theta),\dots,g^{(k)}(\theta)) \triangleq D^T(\theta)_{1\times k} \]

其中\(D(\theta)=(g'(\theta),g''(\theta),\dots,g^{(k)}(\theta))^T_{k\times 1}\)为\(g(\theta)\)的1~k阶导数构成的列向量。

详细证明

该引理是例5.1.5的多阶推广，对\(i=1,2,\dots,k\)分别应用例5.1.5的结论即可：

对每个\(i\)，\(E[S^i]=0\)已在例5.1.5中证明，结论1成立；
各阶得分函数二阶矩有限，因此任意两个\(S^i,S^j\)的协方差存在，协方差矩阵\(V(\theta)\)存在，结论2成立；
对每个\(i\)，\(\text{Cov}(\widehat{g},S^i)=g^{(i)}(\theta)\)，将其按顺序排列为向量，即得到协方差向量\(D^T(\theta)\)，结论3成立。

三、核心定理：Bh不等式

定理5.1.4 Bhattacharyya不等式

条件

与引理5.1.4一致，且协方差矩阵\(V(\theta)\)可逆。

核心结论

\[\text{Var}_\theta[\widehat{g}(X)] \geq D^T(\theta) V^{-1}(\theta) D(\theta) \triangleq Bh_k \]

其中\(Bh_k\)称为\(k\)阶Bh下界。

等号成立的充要条件

\[\widehat{g}(x) - g(\theta) = D^T(\theta) V^{-1}(\theta) \widetilde{S}(x,\theta) \quad \text{几乎处处成立(a.e.)} \]

即\(\widehat{g}(x)\)与得分向量\(\widetilde{S}(x,\theta)\)线性相关。

详细证明

步骤1：利用方差的非负性构造二次型

对任意常数行向量\(\lambda_{1\times k}\)，考虑随机变量\(\widehat{g}(X) - \lambda \widetilde{S}(X,\theta)\)，方差具有非负性：

\[\text{Var}_\theta\left(\widehat{g} - \lambda \widetilde{S}\right) \geq 0 \]

步骤2：展开方差表达式

\[\begin{align*} \text{Var}\left(\widehat{g} - \lambda \widetilde{S}\right) &= \text{Var}(\widehat{g}) - \lambda \text{Cov}(\widetilde{S},\widehat{g}) - \text{Cov}(\widehat{g},\widetilde{S}) \lambda^T + \lambda \text{Var}(\widetilde{S}) \lambda^T \\ &= \text{Var}(\widehat{g}) - \lambda D - D^T \lambda^T + \lambda V \lambda^T \end{align*} \]

其中\(\text{Cov}(\widehat{g},\widetilde{S})=D^T\)，\(\text{Cov}(\widetilde{S},\widehat{g})=D\)，\(\text{Var}(\widetilde{S})=V\)。

步骤3：求方差最小值对应的\(\lambda\)

方差是关于\(\lambda\)的二次型，对\(\lambda\)求导并令导数为0，可得最小值点：

\[\lambda = D^T V^{-1} \]

步骤4：代入\(\lambda\)得到下界

将\(\lambda=D^T V^{-1}\)代入方差展开式：

\[\begin{align*} \text{Var}\left(\widehat{g} - D^T V^{-1} \widetilde{S}\right) &= \text{Var}(\widehat{g}) - D^T V^{-1} D - D^T V^{-1} D + D^T V^{-1} V V^{-1} D \\ &= \text{Var}(\widehat{g}) - D^T V^{-1} D \end{align*} \]

由方差非负性，\(\text{Var}(\widehat{g}) - D^T V^{-1} D \geq 0\)，即：

\[\text{Var}_\theta(\widehat{g}) \geq D^T(\theta) V^{-1}(\theta) D(\theta) \]

Bh不等式主体得证。

步骤5：证明等号成立的充要条件

方差\(\text{Var}\left(\widehat{g} - \lambda \widetilde{S}\right)=0\)的充要条件是：

\[\widehat{g}(X) - \lambda \widetilde{S}(X,\theta) = a(\theta) \quad \text{a.e.} \]

其中\(a(\theta)\)是与\(X\)无关的常数。

对等式两边取期望：

左边：\(E[\widehat{g}] - \lambda E[\widetilde{S}] = g(\theta) - 0 = g(\theta)\)
右边：\(E[a(\theta)] = a(\theta)\)

因此\(a(\theta)=g(\theta)\)，代入\(\lambda=D^T V^{-1}\)，得等号成立的充要条件：

\[\widehat{g}(x) - g(\theta) = D^T(\theta) V^{-1}(\theta) \widetilde{S}(x,\theta) \quad \text{a.e.} \]

证明完毕。

四、Bh不等式的重要推论

推论1：C-R下界是Bh下界的特例

当\(k=1\)时，\(Bh_1\)即为C-R下界（CRLB）。

证明

\(k=1\)时，\(D(\theta)=g'(\theta)\)（标量），\(V(\theta)=\text{Var}(S^1)=I(\theta)\)（Fisher信息），因此：

\[Bh_1 = [g'(\theta)]^2 I(\theta)^{-1} \]

与C-R下界完全一致。

推论2：有偏估计的Bh不等式

若估计量存在偏倚，即\(E_\theta[\widehat{g}(X)] = g(\theta) + b_g(\theta)\)，其中\(b_g(\theta)\)为偏倚，则Bh不等式推广为：

\[\text{Var}_\theta[\widehat{g}(X)] \geq \overline{D}^T(\theta) V^{-1}(\theta) \overline{D}(\theta) \]

其中\(\overline{D}(\theta)=(\overline{D}_1,\dots,\overline{D}_k)^T\)，\(\overline{D}_i = g^{(i)}(\theta) + b_g^{(i)}(\theta)\)（偏倚的\(i\)阶导数与\(g\)的\(i\)阶导数之和）。

证明

有偏情况下，\(E[\widehat{g} S^i] = \frac{\partial^i}{\partial \theta^i} E[\widehat{g}] = g^{(i)}(\theta)+b_g^{(i)}(\theta)\)，协方差向量变为\(\overline{D}^T\)，代入Bh不等式的形式即可得证。

五、Bh下界的核心性质：单调性

定理5.1.5 Bh下界的单调性

记\(Bh_k \triangleq B_k(\theta) = D_k^T(\theta) V_k^{-1}(\theta) D_k(\theta)\)，则当\(l \leq k\)时，有\(B_l(\theta) \leq B_k(\theta)\)，即：

\[CRLB = Bh_1 \leq Bh_2 \leq \dots \leq Bh_k \leq \dots \leq \text{Var}_\theta(\widehat{g}) \]

核心意义：阶数\(k\)越高，Bh下界越紧，越接近估计量的真实方差，完美弥补了C-R下界的不足。

详细证明

采用分块矩阵求逆的方法：

分块处理：将\(k\)阶矩阵\(V_k\)和向量\(D_k\)按前\(l\)阶、后\(k-l\)阶分块：

\[V_k = \begin{pmatrix} V_{11} & V_{12} \\ V_{21} & V_{22} \end{pmatrix}, \quad D_k = \begin{pmatrix} D_1 \\ D_2 \end{pmatrix} \]

其中\(V_{11}=V_l\)（\(l\)阶协方差矩阵），\(D_1=D_l\)（\(l\)阶导数向量），因此\(B_l = D_1^T V_{11}^{-1} D_1\)。

分块矩阵求逆公式：

\[V_k^{-1} = \begin{pmatrix} V_{11}^{-1} & 0 \\ 0 & 0 \end{pmatrix} + \begin{pmatrix} G \\ -I_{k-l} \end{pmatrix} H^{-1} \begin{pmatrix} G^T & -I_{k-l} \end{pmatrix} \]

其中\(G=V_{11}^{-1}V_{12}\)，\(H=V_{22}-V_{21}V_{11}^{-1}V_{12}\)（Schur补）。由于\(V\)是正定协方差矩阵，因此\(H \geq 0\)（半正定），\(H^{-1} \geq 0\)。

代入计算\(B_k\)：

\[\begin{align*} B_k &= D_k^T V_k^{-1} D_k \\ &= D_1^T V_{11}^{-1} D_1 + (D_1^T G - D_2^T) H^{-1} (G^T D_1 - D_2) \\ &= B_l + \text{非负二次型} \end{align*} \]

由于二次型非负，因此\(B_k \geq B_l\)，单调性得证。

推论：\(B_k(\theta)=B_l(\theta)\)的充要条件是\(V_{21}V_{11}^{-1}D_1 - D_2=0\)。

六、经典应用案例

例5.1.6 正态分布均值平方的UMVUE的Bh下界

设\(X_1,\dots,X_n \overset{i.i.d.}{\sim} N(\theta,1)\)，待估参数\(g(\theta)=\theta^2\)，其UMVUE为\(T(X)=\overline{X}^2 - 1/n\)。

步骤1：验证T是UMVUE

\(\overline{X}\)是\(\theta\)的充分完备统计量，且\(E[T(X)]=E[\overline{X}^2]-1/n = (\text{Var}(\overline{X})+(E\overline{X})^2) -1/n = (1/n+\theta^2)-1/n=\theta^2\)，因此\(T\)是无偏估计，由Lehmann-Scheffé定理，\(T\)是UMVUE。

步骤2：计算T的方差

令\(\overline{Y}=\overline{X}-\theta \sim N(0,1/n)\)，则\(T=(\overline{Y}+\theta)^2 -1/n = \overline{Y}^2 + 2\theta \overline{Y} + \theta^2 -1/n\)，计算得：

\[\text{Var}(T) = \text{Var}(\overline{Y}^2) + 4\theta^2 \text{Var}(\overline{Y}) = \frac{2}{n^2} + \frac{4\theta^2}{n} \]

步骤3：对比C-R下界

\(g'(\theta)=2\theta\)，Fisher信息\(I(\theta)=n\)，C-R下界为\(\frac{[g'(\theta)]^2}{I(\theta)}=\frac{4\theta^2}{n}\)，显然\(\text{Var}(T) > CRLB\)，即T达不到C-R下界。

步骤4：计算\(Bh_2\)下界

1、2阶得分函数：
\(S^1 = n(\overline{x}-\theta)\)，\(S^2 = n^2(\overline{x}-\theta)^2 -n\)
导数向量：\(D_2=(2\theta,2)^T\)
协方差矩阵：\(V_2=\begin{pmatrix} n & 0 \\ 0 & 2n^2 \end{pmatrix}\)，逆矩阵\(V_2^{-1}=\begin{pmatrix} 1/n & 0 \\ 0 & 1/(2n^2) \end{pmatrix}\)
计算\(Bh_2\)：

\[Bh_2 = D_2^T V_2^{-1} D_2 = (2\theta,2)\begin{pmatrix} 1/n & 0 \\ 0 & 1/(2n^2) \end{pmatrix}\begin{pmatrix} 2\theta \\ 2 \end{pmatrix} = \frac{4\theta^2}{n} + \frac{2}{n^2} \]

结论

\(\text{Var}(T)=Bh_2\)，即该UMVUE虽然达不到C-R下界，但可以达到2阶Bh下界，验证了Bh不等式的价值。

七、知识点归纳总结表

类别	核心内容	关键结论/公式	适用条件	核心意义
基础基石	Schwarz概率不等式	\(\text{Cov}^2(X,Y) \leq \text{Var}(X)\text{Var}(Y)\)，等号当且仅当\(X,Y\)线性相关	\(X,Y\)的方差存在	所有C-R型不等式的推导核心
基础引理	广义协方差下界	\(\text{Var}(\widehat{g}) \geq \frac{\text{Cov}^2(\widehat{g},\widetilde{S})}{\text{Var}(\widetilde{S})}\)	\(\widetilde{S}\)方差存在，\(\widehat{g}\)为\(g(\theta)\)的估计量	连接C-R不等式与Bh不等式的桥梁
核心定理	Bh不等式	\(\text{Var}(\widehat{g}) \geq D^T(\theta) V^{-1}(\theta) D(\theta) = Bh_k\)	1. C-R正则族；2. \(f(x,\theta)\)k阶可导；3. \(V(\theta)\)可逆；4. 积分与求导可交换	C-R不等式的高阶推广，给出更紧的无偏估计方差下界
等号成立条件	Bh不等式等号成立	\(\widehat{g}(x)-g(\theta)=D^T V^{-1} \widetilde{S}(x,\theta) \ \text{a.e.}\)	同Bh不等式条件	给出估计量达到Bh下界的充要条件
核心推论1	C-R下界的关系	\(k=1\)时，\(Bh_1=CRLB\)	同C-R不等式条件	证明C-R是Bh的一阶特例
核心推论2	有偏估计推广	\(\text{Var}(\widehat{g}) \geq \overline{D}^T V^{-1} \overline{D}\)，\(\overline{D}_i=g^{(i)}+b_g^{(i)}\)	估计量存在偏倚\(b_g(\theta)\)，其余同Bh条件	将Bh不等式推广到有偏估计场景
核心性质	Bh下界单调性	\(Bh_1 \leq Bh_2 \leq \dots \leq Bh_k \leq \text{Var}(\widehat{g})\)	同Bh不等式条件	阶数k越高，下界越紧，越接近真实方差
典型应用	正态分布\(\theta^2\)估计	UMVUE\(T=\overline{X}^2-1/n\)达不到\(Bh_1\)（CRLB），但达到\(Bh_2\)	\(X_1,\dots,X_n \sim N(\theta,1)\)	验证Bh不等式解决了C-R下界不够紧的问题

posted on 2026-02-24 22:10 Indian_Mysore 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

昆仑山:眼中无形心中有穴之穴人合一

5.1.3Bhattacharyya（Bh）不等式

Bhattacharyya（Bh）不等式 详细讲解与推导

一、背景与核心定位

二、基础引理推导

引理5.1.3 广义协方差下界

条件

结论

详细证明

例5.1.5 单阶高阶下界（i阶推广）

条件

结论

详细证明

引理5.1.4 多阶得分函数的统计性质

条件（Bh正则条件）

结论

详细证明

三、核心定理：Bh不等式

定理5.1.4 Bhattacharyya不等式

条件

核心结论

等号成立的充要条件

详细证明

步骤1：利用方差的非负性构造二次型

步骤2：展开方差表达式

步骤3：求方差最小值对应的\(\lambda\)

步骤4：代入\(\lambda\)得到下界

步骤5：证明等号成立的充要条件

四、Bh不等式的重要推论

推论1：C-R下界是Bh下界的特例

证明

推论2：有偏估计的Bh不等式

证明

五、Bh下界的核心性质：单调性

定理5.1.5 Bh下界的单调性

详细证明

六、经典应用案例

例5.1.6 正态分布均值平方的UMVUE的Bh下界

步骤1：验证T是UMVUE

步骤2：计算T的方差

步骤3：对比C-R下界

步骤4：计算\(Bh_2\)下界

结论

七、知识点归纳总结表

导航

公告

Bhattacharyya（Bh）不等式详细讲解与推导