夫君子之行，静以修身，俭以养德；非澹泊无以明志，非宁静无以致远。夫学须静也，才须学也；非学无以广才，非志无以成学。怠慢则不能励精，险躁则不能冶性。年与时驰，意与岁去，遂成枯落，多不接世。悲守穷庐，将复何及！

5.1.1单参数C-R不等式

单参数C-R（克拉默-拉奥）不等式完整讲解与推导

C-R不等式是参数估计领域的核心定理，它给出了参数估计量方差的理论下界（C-R下界，CRLB），是判断估计量“有效性”的黄金标准。以下将从基础概念、引理推导、核心定理、推论拓展四个维度，完整拆解该知识点。

一、前置核心概念（定理成立的前提）

要理解C-R不等式，必须先掌握3个核心基础概念，同时明确C-R不等式的适用前提——C-R正则分布族。

1. C-R正则分布族

我们讨论的总体分布族\(\{f(x,\theta), \theta\in\Theta\}\)（\(f(x,\theta)\)为概率密度/分布列，\(\Theta\)为参数空间，是\(\mathbb{R}\)上的开区间）必须满足以下正则条件，C-R不等式才成立：

支撑集\(\{x: f(x,\theta)>0\}\)与参数\(\theta\)无关（密度非零的x范围不随θ变化）；
对几乎所有的x，\(\frac{\partial f(x,\theta)}{\partial \theta}\)存在，且关于θ可导；
对参数的求导与对样本的积分/求和可交换顺序，即\(\frac{\partial}{\partial \theta}\int \cdot f(x,\theta)d\mu(x) = \int \cdot \frac{\partial f(x,\theta)}{\partial \theta}d\mu(x)\)；
Fisher信息\(I(\theta)\)存在，且满足\(0<I(\theta)<+\infty\)；
待估函数\(g(\theta)\)的导数\(g'(\theta)\)存在且有限。

2. 得分函数（Score Function）\(S(x,\theta)\)

定义：对数似然函数关于参数的一阶导数，即

\[S(x,\theta) = \frac{\partial L(\theta,x)}{\partial \theta} = \frac{\partial \log f(x,\theta)}{\partial \theta} = \frac{1}{f(x,\theta)}\frac{\partial f(x,\theta)}{\partial \theta} \]

核心性质（所有推导的基础）：

期望为0：\(\mathbb{E}_\theta[S(X,\theta)] = 0\)
证明：

\[\mathbb{E}_\theta[S(X,\theta)] = \int S(x,\theta)f(x,\theta)d\mu(x) = \int \frac{\partial f(x,\theta)}{\partial \theta}d\mu(x) \]
由正则条件，求导与积分可交换，因此

\[= \frac{\partial}{\partial \theta}\int f(x,\theta)d\mu(x) = \frac{\partial}{\partial \theta}1 = 0 \]
（密度函数的积分恒为1，导数为0）
方差等于Fisher信息：\(\text{Var}_\theta[S(X,\theta)] = \mathbb{E}_\theta[S(X,\theta)^2] = I(\theta)\)
证明：
由\(\mathbb{E}[S]=0\)，方差的定义为\(\text{Var}(S) = \mathbb{E}[S^2] - (\mathbb{E}[S])^2 = \mathbb{E}[S^2]\)，这正是Fisher信息的定义。

3. Fisher信息\(I(\theta)\)

定义：\(I(\theta) = \mathbb{E}_\theta\left[\left(\frac{\partial \log f(X,\theta)}{\partial \theta}\right)^2\right]\)
核心意义：衡量样本中包含的关于参数\(\theta\)的信息量。\(I(\theta)\)越大，样本携带的参数信息越多，估计量的方差下界越小，估计的理论精度上限越高。

二、核心引理推导

C-R不等式的证明依赖两个核心引理，分别搭建“估计量-得分函数”的桥梁，和提供不等式的数学基础。

引理5.1.1 估计量与得分函数的协方差关系

引理内容：设\(\{f(x,\theta), \theta\in\Theta\}\)为C-R分布族，\(\widehat{g}(X)\)是\(g(\theta)\)的无偏估计，\(\widehat{\theta}(X)\)是\(\theta\)的无偏估计，且\(g'(\theta)\)存在，则

\[\text{Cov}_\theta(\widehat{g}(X), S(X,\theta)) = \mathbb{E}_\theta[\widehat{g}(X)S(X,\theta)] = g'(\theta) \tag{5.1.1} \]

\[\text{Cov}_\theta(\widehat{\theta}(X), S(X,\theta)) = 1 \tag{5.1.2} \]

详细证明：

协方差简化：由协方差定义\(\text{Cov}(U,V)=\mathbb{E}[(U-\mathbb{E}U)(V-\mathbb{E}V)]\)，令\(U=\widehat{g}(X)\)，\(V=S(X,\theta)\)。
已知\(\mathbb{E}[S]=0\)，且\(\widehat{g}\)是无偏估计，即\(\mathbb{E}[\widehat{g}]=g(\theta)\)（与x无关的常数），因此

\[\text{Cov}(\widehat{g},S) = \mathbb{E}[(\widehat{g}-\mathbb{E}\widehat{g})S] = \mathbb{E}[\widehat{g}S] - \mathbb{E}[\widehat{g}]\cdot\mathbb{E}[S] = \mathbb{E}[\widehat{g}S] \]
展开期望并化简：

\[\mathbb{E}[\widehat{g}S] = \int \widehat{g}(x) \cdot \frac{1}{f(x,\theta)}\frac{\partial f(x,\theta)}{\partial \theta} \cdot f(x,\theta)d\mu(x) = \int \widehat{g}(x)\frac{\partial f(x,\theta)}{\partial \theta}d\mu(x) \]
交换求导与积分顺序（正则条件保证合法性）：

\[= \frac{\partial}{\partial \theta}\int \widehat{g}(x)f(x,\theta)d\mu(x) = \frac{\partial}{\partial \theta}\mathbb{E}[\widehat{g}(X)] \]
代入无偏性条件：\(\mathbb{E}[\widehat{g}(X)]=g(\theta)\)，因此

\[\frac{\partial}{\partial \theta}\mathbb{E}[\widehat{g}(X)] = g'(\theta) \]
式(5.1.1)得证。
式(5.1.2)的证明：令\(g(\theta)=\theta\)，则\(g'(\theta)=1\)，\(\widehat{g}(X)=\widehat{\theta}(X)\)是θ的无偏估计，代入式(5.1.1)直接得到\(\text{Cov}_\theta(\widehat{\theta}(X), S(X,\theta)) = 1\)。

引理意义：将待估参数的估计量与得分函数（Fisher信息）通过协方差建立了确定性联系，是推导C-R不等式的核心桥梁。

引理5.1.2 Schwarz不等式的方差形式

引理内容：若随机变量\(X,Y\)的二阶矩存在，则

\[\text{Var}(X)\cdot\text{Var}(Y) \geq [\text{Cov}(X,Y)]^2 \tag{5.1.3} \]

等号成立的充要条件是：存在常数\(\lambda\)，使得\(X-\lambda Y = c\)（几乎处处成立，a.e.），其中\(c\)为常数；其中最优系数\(\lambda = \text{Cov}(X,Y)\text{Var}^{-1}(Y)\)。

详细证明：

构造随机变量\(Z=X-\lambda Y\)，计算其方差：

\[\text{Var}(Z) = \text{Var}(X-\lambda Y) = \text{Var}(X) + \lambda^2\text{Var}(Y) - 2\lambda\text{Cov}(X,Y) \]
求使\(\text{Var}(Z)\)最小的\(\lambda\)：
上式是关于\(\lambda\)的二次函数，开口向上，最小值在导数为0处取得。对\(\lambda\)求导并令导数为0：

\[\frac{d}{d\lambda}\text{Var}(Z) = 2\lambda\text{Var}(Y) - 2\text{Cov}(X,Y) = 0 \]
解得最优系数\(\lambda = \frac{\text{Cov}(X,Y)}{\text{Var}(Y)} = \text{Cov}(X,Y)\text{Var}^{-1}(Y)\)。
代入最优\(\lambda\)化简方差：

\[\text{Var}(X-\lambda Y) = \text{Var}(X) - \frac{[\text{Cov}(X,Y)]^2}{\text{Var}(Y)} \]
推导不等式：
由方差的非负性\(\text{Var}(X-\lambda Y)\geq0\)，因此

\[\text{Var}(X) - \frac{[\text{Cov}(X,Y)]^2}{\text{Var}(Y)} \geq 0 \]
两边乘以\(\text{Var}(Y)\)，即得\(\text{Var}(X)\cdot\text{Var}(Y) \geq [\text{Cov}(X,Y)]^2\)。
等号成立条件：
不等式取等号当且仅当\(\text{Var}(X-\lambda Y)=0\)，而随机变量方差为0的充要条件是该随机变量几乎处处等于常数，即\(X-\lambda Y = c\)（a.e.）。

引理意义：给出了方差乘积与协方差平方的不等关系，是C-R不等式的核心数学工具。

三、核心定理：单参数无偏估计的C-R不等式

定理5.1.1 内容

设\(\{f(x,\theta), \theta\in\Theta\}\)为C-R分布族，\(\widehat{g}(X)\)是\(g(\theta)\)的无偏估计，\(\widehat{\theta}(X)\)是\(\theta\)的无偏估计，且\(g'(\theta)\)存在，则

\[\text{Var}_\theta[\widehat{g}(X)] \geq [g'(\theta)]^2 I^{-1}(\theta) \tag{5.1.6} \]

\[\text{Var}_\theta[\widehat{\theta}(X)] \geq I^{-1}(\theta) \tag{5.1.7} \]

等号成立（方差达到C-R下界）的充要条件分别为：

\[S(x,\theta) = a(\theta)[\widehat{g}(x)-g(\theta)] \ \text{(a.e.)} \tag{5.1.8} \]

\[S(x,\theta) = a(\theta)[\widehat{\theta}(x)-\theta] \ \text{(a.e.)} \tag{5.1.9} \]

其中\(a(\theta)\)是仅与\(\theta\)有关的函数。

定理详细证明

代入Schwarz不等式：令\(X=\widehat{g}(X)\)，\(Y=S(X,\theta)\)，代入引理5.1.2的不等式：

\[\text{Var}(\widehat{g}) \cdot \text{Var}(S) \geq [\text{Cov}(\widehat{g}, S)]^2 \]
代入引理5.1.1与得分函数的性质：
由引理5.1.1，\(\text{Cov}(\widehat{g}, S)=g'(\theta)\)；由得分函数性质，\(\text{Var}(S)=I(\theta)\)。代入得：

\[\text{Var}(\widehat{g}) \cdot I(\theta) \geq [g'(\theta)]^2 \]
变形得到C-R不等式：
由正则条件\(I(\theta)>0\)，两边除以\(I(\theta)\)，不等号方向不变，得

\[\text{Var}_\theta[\widehat{g}(X)] \geq \frac{[g'(\theta)]^2}{I(\theta)} = [g'(\theta)]^2 I^{-1}(\theta) \]
式(5.1.6)得证。
式(5.1.7)的证明：令\(g(\theta)=\theta\)，则\(g'(\theta)=1\)，代入式(5.1.6)直接得到

\[\text{Var}_\theta[\widehat{\theta}(X)] \geq \frac{1}{I(\theta)} = I^{-1}(\theta) \]

等号成立条件的证明

Schwarz不等式等号成立的充要条件是：存在常数\(\lambda\)，使得\(\widehat{g}(X) - \lambda S(X,\theta) = c(\theta)\)（a.e.），其中\(c(\theta)\)仅与\(\theta\)有关。
确定\(\lambda\)的取值：由引理5.1.2，最优\(\lambda = \text{Cov}(\widehat{g},S)\text{Var}^{-1}(S) = g'(\theta) I^{-1}(\theta)\)。
确定常数\(c(\theta)\)：对等式两边取期望\(\mathbb{E}_\theta\)，左边为
\[\mathbb{E}[\widehat{g}(X)] - \lambda \mathbb{E}[S(X,\theta)] = g(\theta) - \lambda \cdot 0 = g(\theta) \]
右边为\(\mathbb{E}[c(\theta)]=c(\theta)\)，因此\(c(\theta)=g(\theta)\)。
变形得到最终形式：
\[\widehat{g}(x) - \lambda S(x,\theta) = g(\theta) \implies S(x,\theta) = \frac{1}{\lambda}[\widehat{g}(x)-g(\theta)] \]
令\(a(\theta)=\frac{1}{\lambda}=\frac{I(\theta)}{g'(\theta)}\)，即得式(5.1.8)。
式(5.1.9)的证明：令\(g(\theta)=\theta\)，代入式(5.1.8)直接得证。

定理核心意义与有效估计定义

核心价值：C-R不等式给出了无偏估计量方差的理论下界——无论构造何种无偏估计，其方差都不可能低于该下界，且下界仅与待估函数、分布族的Fisher信息有关，与估计量形式无关。
有效估计定义（定义5.1.1）：
设\(\widehat{g}(X)\)是\(g(\theta)\)的无偏估计，若其方差达到C-R下界，即
\[\text{Var}[\widehat{g}(X)] = [g'(\theta)]^2 I^{-1}(\theta) \]
则称\(\widehat{g}(X)\)为\(g(\theta)\)的有效无偏估计。
特别地，若\(\text{Var}[\widehat{\theta}(X)] = I^{-1}(\theta)\)，则称\(\widehat{\theta}(X)\)为\(\theta\)的有效无偏估计。
推论1：有效无偏估计一定是一致最小方差无偏估计（UMVUE），但UMVUE不一定是有效估计。
解释：有效估计的方差达到了所有无偏估计的下界，因此是方差最小的无偏估计；但部分分布族的UMVUE方差无法达到C-R下界，因此有效估计是UMVUE的“最优子集”。

四、拓展推论详解

推论2 独立同分布（i.i.d.）样本的C-R不等式

推论内容：若样本\(X=(X_1,X_2,\dots,X_n)^T\)独立同分布，单个样本\(X_1\)的Fisher信息为\(i(\theta)\)，则

\[\text{Var}[\widehat{g}(X)] \geq \frac{1}{n}[g'(\theta)]^2 i^{-1}(\theta) = O(n^{-1}) \]

\[\text{Var}[\widehat{\theta}(X)] \geq \frac{1}{n}i^{-1}(\theta) = O(n^{-1}) \]

推导核心：
n个i.i.d.样本的总Fisher信息\(I(\theta) = n\cdot i(\theta)\)（样本独立，得分函数的方差可加和），将其代入核心C-R不等式即可得证。

核心意义：C-R下界与样本量\(n\)成反比，样本量越大，估计的理论精度上限越高；当\(n\to\infty\)时，方差下界趋近于0，与估计量的相合性一致，同时给出了参数估计的经典收敛速度\(O(n^{-1})\)。

推论3 有偏估计的C-R不等式

推论内容：若\(\widehat{g}(X)\)、\(\widehat{\theta}(X)\)为有偏估计，偏差分别为\(b_g(\theta)=\mathbb{E}[\widehat{g}(X)]-g(\theta)\)、\(b(\theta)=\mathbb{E}[\widehat{\theta}(X)]-\theta\)，则

\[\text{Var}[\widehat{g}(X)] \geq [g'(\theta)+b_g'(\theta)]^2 I^{-1}(\theta) \]

\[\text{Var}[\widehat{\theta}(X)] \geq [1+b'(\theta)]^2 I^{-1}(\theta) \]

推导核心：
对有偏估计，引理5.1.1的协方差结果变为\(\text{Cov}(\widehat{g},S) = \frac{\partial}{\partial \theta}\mathbb{E}[\widehat{g}(X)] = g'(\theta)+b_g'(\theta)\)，将其代入Schwarz不等式即可得证。

核心意义：将C-R不等式从无偏估计推广到有偏估计，可用于衡量有偏估计的性能；有偏估计的C-R下界与估计量的偏差有关，这与无偏估计的“通用下界”不同。

推论4 参数变换下C-R下界的不变性

推论内容：\(g(\theta)\)的无偏估计的C-R下界在参数变换下保持不变。即若做参数变换\(\theta=\theta(\eta)\)，令\(g(\theta)=g(\theta(\eta))=\widetilde{g}(\eta)\)，参数\(\eta\)的Fisher信息为\(I(\eta)\)，则

\[\text{CRLB} = [g'(\theta)]^2 I^{-1}(\theta) = [\widetilde{g}'(\eta)]^2 I^{-1}(\eta) \]

推导核心：

链式法则求导：\(\widetilde{g}'(\eta) = g'(\theta(\eta))\cdot\theta'(\eta)\)，因此\([\widetilde{g}'(\eta)]^2 = [g'(\theta)]^2\cdot[\theta'(\eta)]^2\)；
参数变换下Fisher信息的关系：\(I(\eta) = I(\theta(\eta))\cdot[\theta'(\eta)]^2\)；
代入后\([\theta'(\eta)]^2\)抵消，因此C-R下界保持不变。

核心意义：C-R下界是参数的内在属性，不随参数的表示形式变化，保证了估计有效性的判断在参数变换下具有一致性。

五、知识点完整归纳总结

模块	核心内容	核心公式	适用条件	核心结论与意义
前置基础	C-R正则分布族	支撑集与θ无关、求导与积分可交换、Fisher信息正且有限	所有C-R不等式的前提	保证定理推导的数学合法性，是C-R不等式成立的基础
	得分函数\(S(x,\theta)\)	\(S(x,\theta)=\frac{\partial \log f(x,\theta)}{\partial \theta}\)	C-R正则分布族	1. \(\mathbb{E}[S]=0\)；2. \(\text{Var}(S)=I(\theta)\)，连接估计量与Fisher信息的核心
	Fisher信息\(I(\theta)\)	\(I(\theta)=\mathbb{E}\left[\left(\frac{\partial \log f(X,\theta)}{\partial \theta}\right)^2\right]\)	C-R正则分布族	衡量样本的参数信息量，\(I(\theta)\)越大，估计方差下界越小
核心引理	引理5.1.1 估计量-得分函数协方差	无偏估计：\(\text{Cov}(\widehat{g},S)=g'(\theta)\)；\(\text{Cov}(\widehat{\theta},S)=1\)	C-R分布族、估计量无偏、\(g'(\theta)\)存在	搭建估计量与Fisher信息的桥梁，是C-R不等式的核心基础
	引理5.1.2 Schwarz方差不等式	\(\text{Var}(X)\text{Var}(Y)\geq [\text{Cov}(X,Y)]^2\)	随机变量二阶矩存在	C-R不等式的核心数学工具，给出方差的不等关系
核心定理	无偏估计C-R不等式	\(\text{Var}(\widehat{g})\geq [g'(\theta)]^2 I^{-1}(\theta)\)；\(\text{Var}(\widehat{\theta})\geq I^{-1}(\theta)\)	C-R分布族、估计量无偏、\(g'(\theta)\)存在	给出无偏估计方差的理论下界，任何无偏估计的方差无法低于该值
	有效估计等号条件	\(S(x,\theta)=a(\theta)(\widehat{g}(x)-g(\theta))\)（a.e.）	上述C-R不等式适用条件	方差达到C-R下界的无偏估计为有效估计，是理论最优的无偏估计
拓展推论	推论1 有效估计与UMVUE	有效估计必为UMVUE，UMVUE不一定是有效估计	无偏估计、C-R分布族	有效估计是UMVUE的最优子集
	推论2 i.i.d.样本的C-R下界	\(\text{Var}(\widehat{g})\geq \frac{1}{n}[g'(\theta)]^2 i^{-1}(\theta)\)	样本独立同分布、单样本Fisher信息\(i(\theta)\)	方差下界与样本量n成反比，收敛速度为\(O(n^{-1})\)
	推论3 有偏估计的C-R不等式	\(\text{Var}(\widehat{g})\geq [g'(\theta)+b_g'(\theta)]^2 I^{-1}(\theta)\)	C-R分布族、偏差函数可导	将C-R不等式推广到有偏估计，可分析有偏估计的性能
	推论4 参数变换下的不变性	\([g'(\theta)]^2 I^{-1}(\theta) = [\widetilde{g}'(\eta)]^2 I^{-1}(\eta)\)	参数变换可导且可逆	C-R下界是参数的内在属性，不随参数表示形式变化

补充易错点说明

适用局限性：C-R不等式仅对满足C-R正则条件的分布族成立，例如均匀分布\(U(0,\theta)\)的支撑集与θ有关，不满足正则条件，因此C-R不等式对其无效。
有效估计的存在性：仅当得分函数可表示为\(S(x,\theta)=a(\theta)(\widehat{g}(x)-g(\theta))\)的形式时，才存在有效估计，该形式是指数族分布的核心特征，因此非指数族分布大多不存在有效估计。
有偏估计的有效性：有效估计的定义仅针对无偏估计，有偏估计即使方差小于C-R下界，也不能称为有效估计，其性能需用均方误差（MSE=方差+偏差平方）衡量。

C-R不等式典型例题详解与核心结论

本次内容完整拆解3道C-R不等式的核心例题，覆盖有效估计验证、渐近有效性分析、C-R不等式适用边界反例三大核心场景，每道例题均补充完整推导过程、核心逻辑与知识点关联。

例5.1.1 正态分布\(N(\mu,\sigma^2)\)参数的C-R下界与有效性分析

题目设定

设\(X_1,X_2,\dots,X_n\)独立同分布，\(X_1 \sim N(\mu,\sigma^2)\)，分别求参数\(\mu\)和\(\sigma^2\)的无偏估计的C-R下界（CRLB），并判断估计量的有效性。

完整推导与分析

（1）参数\(\mu\)的无偏估计分析（\(\sigma^2\)视为已知常数）

步骤1：计算Fisher信息

单个样本的概率密度：

\[f(x;\mu) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(x-\mu)^2}{2\sigma^2} \right\} \]

对数似然函数：

\[\log f(x;\mu) = -\frac{1}{2}\log(2\pi\sigma^2) - \frac{(x-\mu)^2}{2\sigma^2} \]

得分函数（对\(\mu\)求一阶导）：

\[\frac{\partial \log f}{\partial \mu} = \frac{x-\mu}{\sigma^2} \]

单个样本的Fisher信息（得分函数平方的期望）：

\[i(\mu) = \mathbb{E}\left[ \left( \frac{\partial \log f}{\partial \mu} \right)^2 \right] = \mathbb{E}\left[ \frac{(X-\mu)^2}{\sigma^4} \right] = \frac{\sigma^2}{\sigma^4} = \frac{1}{\sigma^2} \]

\(n\)个独立同分布样本的总Fisher信息：

\[I(\mu) = n \cdot i(\mu) = \frac{n}{\sigma^2} \]

步骤2：确定无偏估计并计算方差

取\(\mu\)的无偏估计为样本均值\(\hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\)：

无偏性验证：\(\mathbb{E}[\bar{X}] = \frac{1}{n}\sum_{i=1}^n \mathbb{E}[X_i] = \mu\)，满足无偏性；
方差计算：\(\text{Var}(\bar{X}) = \frac{1}{n^2}\sum_{i=1}^n \text{Var}(X_i) = \frac{\sigma^2}{n}\)。

步骤3：计算C-R下界并判断有效性

待估函数\(g(\mu)=\mu\)，故\(g'(\mu)=1\)，C-R下界为：

\[\text{CRLB} = [g'(\mu)]^2 \cdot I^{-1}(\mu) = 1^2 \cdot \frac{\sigma^2}{n} = \frac{\sigma^2}{n} \]

由于\(\text{Var}(\hat{\mu}) = \text{CRLB}\)，因此\(\hat{\mu}=\bar{X}\)是\(\mu\)的有效无偏估计。

（2）参数\(\sigma^2\)的无偏估计分析（\(\mu\)视为未知参数）

步骤1：计算Fisher信息

令待估参数\(\theta=\sigma^2\)，单个样本的概率密度：

\[f(x;\theta) = \frac{1}{\sqrt{2\pi\theta}} \exp\left\{ -\frac{(x-\mu)^2}{2\theta} \right\} \]

对数似然函数：

\[\log f(x;\theta) = -\frac{1}{2}\log(2\pi) - \frac{1}{2}\log\theta - \frac{(x-\mu)^2}{2\theta} \]

得分函数（对\(\theta\)求一阶导）：

\[\frac{\partial \log f}{\partial \theta} = -\frac{1}{2\theta} + \frac{(x-\mu)^2}{2\theta^2} = \frac{(x-\mu)^2 - \theta}{2\theta^2} \]

单个样本的Fisher信息：

\[i(\theta) = \mathbb{E}\left[ \left( \frac{\partial \log f}{\partial \theta} \right)^2 \right] = \frac{\mathbb{E}\left[ ((X-\mu)^2 - \theta)^2 \right]}{4\theta^4} \]

由于\((X-\mu)^2 \sim \theta\cdot\chi^2(1)\)，故\(\text{Var}((X-\mu)^2)=2\theta^2\)，因此\(\mathbb{E}\left[ ((X-\mu)^2 - \theta)^2 \right] = 2\theta^2\)，代入得：

\[i(\theta) = \frac{2\theta^2}{4\theta^4} = \frac{1}{2\theta^2} \]

\(n\)个样本的总Fisher信息：

\[I(\sigma^2) = n \cdot i(\sigma^2) = \frac{n}{2\sigma^4} \]

步骤2：确定无偏估计并计算方差

取\(\sigma^2\)的无偏估计为样本方差\(\widehat{\sigma^2} = S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\)：

无偏性验证：\(\mathbb{E}[S^2] = \sigma^2\)，满足无偏性；
方差计算：正态分布下\(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\)，而\(\text{Var}(\chi^2(k))=2k\)，因此：
\[\text{Var}\left( \frac{(n-1)S^2}{\sigma^2} \right) = 2(n-1) \implies \text{Var}(S^2) = \frac{2\sigma^4}{n-1} \]

步骤3：计算C-R下界并判断有效性

待估函数\(g(\sigma^2)=\sigma^2\)，故\(g'(\sigma^2)=1\)，C-R下界为：

\[\text{CRLB} = [g'(\sigma^2)]^2 \cdot I^{-1}(\sigma^2) = 1^2 \cdot \frac{2\sigma^4}{n} = \frac{2\sigma^4}{n} \]

由于\(\text{Var}(\widehat{\sigma^2}) = \frac{2\sigma^4}{n-1} > \frac{2\sigma^4}{n} = \text{CRLB}\)，因此\(\widehat{\sigma^2}\)不是有效无偏估计。

渐近有效性分析

估计量的效率定义为\(e(\widehat{g}) = \frac{\text{CRLB}}{\text{Var}(\widehat{g})}\)，代入得：

\[e(\widehat{\sigma^2}) = \frac{2\sigma^4/n}{2\sigma^4/(n-1)} = \frac{n-1}{n} \]

当\(n \to +\infty\)时，\(e(\widehat{\sigma^2}) \to 1\)，因此\(\widehat{\sigma^2}\)是\(\sigma^2\)的渐近有效无偏估计。

例5.1.2 泊松分布\(P(\lambda)\)参数的C-R下界与有效性分析

题目设定

设\(X_1,X_2,\dots,X_n\)独立同分布，\(X_1 \sim P(\lambda)\)（泊松分布），分别求参数\(\lambda\)和待估函数\(g(\lambda)=e^{-\lambda}\)的无偏估计的C-R下界，并判断估计量的有效性。

完整推导与分析

泊松分布的分布律：\(P(X=x;\lambda) = \frac{\lambda^x e^{-\lambda}}{x!}, \ x=0,1,2,\dots\)

（1）参数\(\lambda\)的无偏估计分析

步骤1：计算Fisher信息

单个样本的对数似然函数：

\[\log f(x;\lambda) = x\log\lambda - \lambda - \log(x!) \]

得分函数（对\(\lambda\)求一阶导）：

\[\frac{\partial \log f}{\partial \lambda} = \frac{x}{\lambda} - 1 = \frac{x-\lambda}{\lambda} \]

单个样本的Fisher信息：

\[i(\lambda) = \mathbb{E}\left[ \left( \frac{\partial \log f}{\partial \lambda} \right)^2 \right] = \mathbb{E}\left[ \frac{(X-\lambda)^2}{\lambda^2} \right] = \frac{\lambda}{\lambda^2} = \frac{1}{\lambda} \]

\(n\)个样本的总Fisher信息：

\[I(\lambda) = n \cdot i(\lambda) = \frac{n}{\lambda} \]

步骤2：确定无偏估计并计算方差

取\(\lambda\)的无偏估计为样本均值\(\hat{\lambda} = \bar{X}\)：

无偏性验证：\(\mathbb{E}[\bar{X}] = \frac{1}{n}\sum_{i=1}^n \mathbb{E}[X_i] = \lambda\)，满足无偏性；
方差计算：\(\text{Var}(\bar{X}) = \frac{1}{n^2}\sum_{i=1}^n \text{Var}(X_i) = \frac{\lambda}{n}\)。

步骤3：计算C-R下界并判断有效性

待估函数\(g(\lambda)=\lambda\)，故\(g'(\lambda)=1\)，C-R下界为：

\[\text{CRLB} = [g'(\lambda)]^2 \cdot I^{-1}(\lambda) = 1^2 \cdot \frac{\lambda}{n} = \frac{\lambda}{n} \]

由于\(\text{Var}(\hat{\lambda}) = \text{CRLB}\)，因此\(\hat{\lambda}=\bar{X}\)是\(\lambda\)的有效无偏估计。

（2）待估函数\(g(\lambda)=e^{-\lambda}\)的无偏估计分析

步骤1：计算C-R下界

\(g(\lambda)=e^{-\lambda}\)，故\(g'(\lambda) = -e^{-\lambda}\)，\([g'(\lambda)]^2 = e^{-2\lambda}\)，结合总Fisher信息\(I(\lambda)=\frac{n}{\lambda}\)，C-R下界为：

\[\text{CRLB} = [g'(\lambda)]^2 \cdot I^{-1}(\lambda) = e^{-2\lambda} \cdot \frac{\lambda}{n} = \frac{\lambda e^{-2\lambda}}{n} \]

步骤2：确定无偏估计并计算方差

取\(e^{-\lambda}\)的无偏估计为\(\widehat{g}(X) = \left(1-\frac{1}{n}\right)^T\)，其中\(T=\sum_{i=1}^n X_i\)：

无偏性验证：泊松分布具有可加性，\(T \sim P(n\lambda)\)，其概率生成函数为\(G_T(s) = \mathbb{E}[s^T] = \exp\{n\lambda(s-1)\}\)。令\(s=1-\frac{1}{n}\)，则：
\[\mathbb{E}\left[ \left(1-\frac{1}{n}\right)^T \right] = \exp\left\{ n\lambda\left(1-\frac{1}{n} - 1\right) \right\} = e^{-\lambda} \]
满足无偏性。
方差计算：\(\text{Var}(\widehat{g}) = \mathbb{E}[\widehat{g}^2] - (\mathbb{E}[\widehat{g}])^2\)，其中：
\[\mathbb{E}[\widehat{g}^2] = \mathbb{E}\left[ \left(1-\frac{1}{n}\right)^{2T} \right] = \exp\left\{ n\lambda\left( \left(1-\frac{1}{n}\right)^2 - 1 \right) \right\} = e^{-2\lambda} e^{\lambda/n} \]
因此：
\[\text{Var}(\widehat{g}) = e^{-2\lambda}e^{\lambda/n} - e^{-2\lambda} = e^{-2\lambda}\left( e^{\lambda/n} - 1 \right) \]

步骤3：有效性与渐近有效性分析

由泰勒展开\(e^{\lambda/n} - 1 = \frac{\lambda}{n} + \frac{(\lambda/n)^2}{2} + \dots > \frac{\lambda}{n}\)，因此\(\text{Var}(\widehat{g}) > \text{CRLB}\)，\(\widehat{g}\)不是有效无偏估计。

效率计算：

\[e(\widehat{g}) = \frac{\text{CRLB}}{\text{Var}(\widehat{g})} = \frac{\lambda e^{-2\lambda}/n}{e^{-2\lambda}(e^{\lambda/n}-1)} = \frac{\lambda/n}{e^{\lambda/n}-1} \]

当\(n \to +\infty\)时，\(\frac{\lambda}{n} \to 0\)，\(e^{\lambda/n}-1 \sim \frac{\lambda}{n}\)，故\(e(\widehat{g}) \to 1\)，因此\(\widehat{g}\)是\(e^{-\lambda}\)的渐近有效无偏估计。

渐近有效性定义（定义5.1.2）

设\(\widehat{g}(X)\)为\(g(\theta)\)的无偏估计，其效率为：

\[e(\widehat{g}) = \frac{\text{CRLB}}{\text{Var}[\widehat{g}(X)]} \]

若当\(n \to +\infty\)时，\(e(\widehat{g}) \to 1\)，则称\(\widehat{g}(X)\)为渐近有效的无偏估计。

注：效率\(e(\widehat{g}) \leq 1\)，越接近1，估计量的渐近性能越好；\(e(\widehat{g})=1\)时为有效估计。

例5.1.3 均匀分布\(R(0,\theta)\)的反例：C-R不等式的适用边界

题目设定

设\(X_1,X_2,\dots,X_n\)独立同分布，\(X_1 \sim R(0,\theta)\)（区间\((0,\theta)\)上的均匀分布），分析C-R不等式的适用性。

核心推导与结论

（1）C-R正则条件不满足

均匀分布\(R(0,\theta)\)的概率密度为：

\[f(x;\theta) = \begin{cases} \frac{1}{\theta}, & 0 < x < \theta \\ 0, & \text{其他} \end{cases}\]

其支撑集\(\{x:f(x;\theta)>0\}=(0,\theta)\)，与参数\(\theta\)直接相关，不满足C-R分布族的核心正则条件（支撑集与参数无关），因此C-R不等式对该分布族不成立。

（2）无偏估计的方差计算

取\(\theta\)的无偏估计为\(\hat{\theta}(X) = \frac{n+1}{n}X_{(n)}\)，其中\(X_{(n)}\)为样本的最大值（次序统计量）：

无偏性验证：\(X_{(n)}\)的概率密度为\(f_n(x) = \frac{n x^{n-1}}{\theta^n}, 0<x<\theta\)，因此：
\[\mathbb{E}[X_{(n)}] = \int_0^\theta x \cdot \frac{n x^{n-1}}{\theta^n} dx = \frac{n\theta}{n+1} \]
故\(\mathbb{E}[\hat{\theta}] = \frac{n+1}{n} \cdot \frac{n\theta}{n+1} = \theta\)，满足无偏性。
方差计算：
\[\mathbb{E}[X_{(n)}^2] = \int_0^\theta x^2 \cdot \frac{n x^{n-1}}{\theta^n} dx = \frac{n\theta^2}{n+2} \]
\[\text{Var}(X_{(n)}) = \frac{n\theta^2}{n+2} - \left( \frac{n\theta}{n+1} \right)^2 = \frac{n\theta^2}{(n+2)(n+1)^2} \]
因此：
\[\text{Var}(\hat{\theta}) = \left( \frac{n+1}{n} \right)^2 \cdot \text{Var}(X_{(n)}) = \frac{\theta^2}{n(n+2)} \]

（3）形式化C-R下界与矛盾

若忽略正则条件，形式化计算Fisher信息：
对数似然函数\(\log f(x;\theta) = -\log\theta\)，得分函数\(\frac{\partial \log f}{\partial \theta} = -\frac{1}{\theta}\)，形式化的Fisher信息：

\[i(\theta) = \mathbb{E}\left[ \left( \frac{\partial \log f}{\partial \theta} \right)^2 \right] = \frac{1}{\theta^2}, \quad I(\theta) = \frac{n}{\theta^2} \]

形式化的C-R下界为：

\[\text{“CRLB”} = I^{-1}(\theta) = \frac{\theta^2}{n} \]

此时出现明显矛盾：\(\text{Var}(\hat{\theta}) = \frac{\theta^2}{n(n+2)} < \frac{\theta^2}{n} = \text{“CRLB”}\)，即估计量的方差小于形式上的C-R下界。

核心结论

该反例明确了C-R不等式的适用前提：仅对满足C-R正则条件的分布族成立；若分布族不满足正则条件（如支撑集与参数相关），C-R下界无意义，强行套用会出现与理论矛盾的结果。

三道例题核心信息对比表

分布类型	待估参数/函数	无偏估计	C-R下界	估计量方差	有效性	核心结论
正态分布\(N(\mu,\sigma^2)\)	\(\mu\)	\(\bar{X}\)	\(\sigma^2/n\)	\(\sigma^2/n\)	有效无偏估计	样本均值是正态均值的有效估计
正态分布\(N(\mu,\sigma^2)\)	\(\sigma^2\)	样本方差\(S^2\)	\(2\sigma^4/n\)	\(2\sigma^4/(n-1)\)	渐近有效无偏估计	样本方差无法达到C-R下界，但大样本下渐近有效
泊松分布\(P(\lambda)\)	\(\lambda\)	\(\bar{X}\)	\(\lambda/n\)	\(\lambda/n\)	有效无偏估计	样本均值是泊松参数的有效估计
泊松分布\(P(\lambda)\)	\(e^{-\lambda}\)	\((1-1/n)^{\sum X_i}\)	\(\lambda e^{-2\lambda}/n\)	\(e^{-2\lambda}(e^{\lambda/n}-1)\)	渐近有效无偏估计	非线性待估函数的无偏估计难以达到C-R下界，大样本下渐近有效
均匀分布\(R(0,\theta)\)	\(\theta\)	\(\frac{n+1}{n}X_{(n)}\)	形式化\(\theta^2/n\)	\(\theta^2/[n(n+2)]\)	不适用C-R不等式	不满足C-R正则条件，C-R下界无意义，不能套用不等式

核心知识点总结

有效估计的本质：仅当估计量的方差达到C-R下界时，才是有效无偏估计；指数族分布（正态、泊松、二项等）的线性参数通常存在有效估计，非线性参数通常不存在有限样本下的有效估计。
渐近有效性的意义：对于不存在有效估计的参数，可通过渐近有效性衡量大样本下的估计性能，绝大多数常用估计量都具有渐近有效性。
C-R不等式的边界：必须满足C-R正则条件（核心是支撑集与参数无关），否则C-R不等式不成立，不能直接套用公式计算下界。

posted on 2026-02-24 15:29 Indian_Mysore 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

昆仑山:眼中无形心中有穴之穴人合一

5.1.1单参数C-R不等式

单参数C-R（克拉默-拉奥）不等式 完整讲解与推导

一、前置核心概念（定理成立的前提）

1. C-R正则分布族

2. 得分函数（Score Function）\(S(x,\theta)\)

3. Fisher信息\(I(\theta)\)

二、核心引理推导

引理5.1.1 估计量与得分函数的协方差关系

引理5.1.2 Schwarz不等式的方差形式

三、核心定理：单参数无偏估计的C-R不等式

定理5.1.1 内容

定理详细证明

等号成立条件的证明

定理核心意义与有效估计定义

四、拓展推论详解

推论2 独立同分布（i.i.d.）样本的C-R不等式

推论3 有偏估计的C-R不等式

推论4 参数变换下C-R下界的不变性

五、知识点完整归纳总结

补充易错点说明

C-R不等式典型例题详解与核心结论

例5.1.1 正态分布\(N(\mu,\sigma^2)\)参数的C-R下界与有效性分析

题目设定

完整推导与分析

（1）参数\(\mu\)的无偏估计分析（\(\sigma^2\)视为已知常数）

步骤1：计算Fisher信息

步骤2：确定无偏估计并计算方差

步骤3：计算C-R下界并判断有效性

（2）参数\(\sigma^2\)的无偏估计分析（\(\mu\)视为未知参数）

步骤1：计算Fisher信息

步骤2：确定无偏估计并计算方差

步骤3：计算C-R下界并判断有效性

渐近有效性分析

例5.1.2 泊松分布\(P(\lambda)\)参数的C-R下界与有效性分析

题目设定

完整推导与分析

（1）参数\(\lambda\)的无偏估计分析

步骤1：计算Fisher信息

步骤2：确定无偏估计并计算方差

步骤3：计算C-R下界并判断有效性

（2）待估函数\(g(\lambda)=e^{-\lambda}\)的无偏估计分析

步骤1：计算C-R下界

步骤2：确定无偏估计并计算方差

步骤3：有效性与渐近有效性分析

渐近有效性定义（定义5.1.2）

例5.1.3 均匀分布\(R(0,\theta)\)的反例：C-R不等式的适用边界

题目设定

核心推导与结论

（1）C-R正则条件不满足

（2）无偏估计的方差计算

（3）形式化C-R下界与矛盾

核心结论

三道例题核心信息对比表

核心知识点总结

导航

公告

单参数C-R（克拉默-拉奥）不等式完整讲解与推导