昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

5.1.1单参数C-R不等式

单参数C-R(克拉默-拉奥)不等式 完整讲解与推导

C-R不等式是参数估计领域的核心定理,它给出了参数估计量方差的理论下界(C-R下界,CRLB),是判断估计量“有效性”的黄金标准。以下将从基础概念、引理推导、核心定理、推论拓展四个维度,完整拆解该知识点。

一、前置核心概念(定理成立的前提)

要理解C-R不等式,必须先掌握3个核心基础概念,同时明确C-R不等式的适用前提——C-R正则分布族

1. C-R正则分布族

我们讨论的总体分布族\(\{f(x,\theta), \theta\in\Theta\}\)\(f(x,\theta)\)为概率密度/分布列,\(\Theta\)为参数空间,是\(\mathbb{R}\)上的开区间)必须满足以下正则条件,C-R不等式才成立:

  1. 支撑集\(\{x: f(x,\theta)>0\}\)与参数\(\theta\)无关(密度非零的x范围不随θ变化);
  2. 对几乎所有的x,\(\frac{\partial f(x,\theta)}{\partial \theta}\)存在,且关于θ可导;
  3. 对参数的求导与对样本的积分/求和可交换顺序,即\(\frac{\partial}{\partial \theta}\int \cdot f(x,\theta)d\mu(x) = \int \cdot \frac{\partial f(x,\theta)}{\partial \theta}d\mu(x)\)
  4. Fisher信息\(I(\theta)\)存在,且满足\(0<I(\theta)<+\infty\)
  5. 待估函数\(g(\theta)\)的导数\(g'(\theta)\)存在且有限。

2. 得分函数(Score Function)\(S(x,\theta)\)

定义:对数似然函数关于参数的一阶导数,即

\[S(x,\theta) = \frac{\partial L(\theta,x)}{\partial \theta} = \frac{\partial \log f(x,\theta)}{\partial \theta} = \frac{1}{f(x,\theta)}\frac{\partial f(x,\theta)}{\partial \theta} \]

核心性质(所有推导的基础)

  1. 期望为0\(\mathbb{E}_\theta[S(X,\theta)] = 0\)
    证明:

    \[\mathbb{E}_\theta[S(X,\theta)] = \int S(x,\theta)f(x,\theta)d\mu(x) = \int \frac{\partial f(x,\theta)}{\partial \theta}d\mu(x) \]

    由正则条件,求导与积分可交换,因此

    \[= \frac{\partial}{\partial \theta}\int f(x,\theta)d\mu(x) = \frac{\partial}{\partial \theta}1 = 0 \]

    (密度函数的积分恒为1,导数为0)

  2. 方差等于Fisher信息\(\text{Var}_\theta[S(X,\theta)] = \mathbb{E}_\theta[S(X,\theta)^2] = I(\theta)\)
    证明:
    \(\mathbb{E}[S]=0\),方差的定义为\(\text{Var}(S) = \mathbb{E}[S^2] - (\mathbb{E}[S])^2 = \mathbb{E}[S^2]\),这正是Fisher信息的定义。

3. Fisher信息\(I(\theta)\)

定义\(I(\theta) = \mathbb{E}_\theta\left[\left(\frac{\partial \log f(X,\theta)}{\partial \theta}\right)^2\right]\)
核心意义:衡量样本中包含的关于参数\(\theta\)的信息量。\(I(\theta)\)越大,样本携带的参数信息越多,估计量的方差下界越小,估计的理论精度上限越高。

二、核心引理推导

C-R不等式的证明依赖两个核心引理,分别搭建“估计量-得分函数”的桥梁,和提供不等式的数学基础。

引理5.1.1 估计量与得分函数的协方差关系

引理内容:设\(\{f(x,\theta), \theta\in\Theta\}\)为C-R分布族,\(\widehat{g}(X)\)\(g(\theta)\)的无偏估计,\(\widehat{\theta}(X)\)\(\theta\)的无偏估计,且\(g'(\theta)\)存在,则

\[\text{Cov}_\theta(\widehat{g}(X), S(X,\theta)) = \mathbb{E}_\theta[\widehat{g}(X)S(X,\theta)] = g'(\theta) \tag{5.1.1} \]

\[\text{Cov}_\theta(\widehat{\theta}(X), S(X,\theta)) = 1 \tag{5.1.2} \]

详细证明

  1. 协方差简化:由协方差定义\(\text{Cov}(U,V)=\mathbb{E}[(U-\mathbb{E}U)(V-\mathbb{E}V)]\),令\(U=\widehat{g}(X)\)\(V=S(X,\theta)\)
    已知\(\mathbb{E}[S]=0\),且\(\widehat{g}\)是无偏估计,即\(\mathbb{E}[\widehat{g}]=g(\theta)\)(与x无关的常数),因此

    \[\text{Cov}(\widehat{g},S) = \mathbb{E}[(\widehat{g}-\mathbb{E}\widehat{g})S] = \mathbb{E}[\widehat{g}S] - \mathbb{E}[\widehat{g}]\cdot\mathbb{E}[S] = \mathbb{E}[\widehat{g}S] \]

  2. 展开期望并化简:

    \[\mathbb{E}[\widehat{g}S] = \int \widehat{g}(x) \cdot \frac{1}{f(x,\theta)}\frac{\partial f(x,\theta)}{\partial \theta} \cdot f(x,\theta)d\mu(x) = \int \widehat{g}(x)\frac{\partial f(x,\theta)}{\partial \theta}d\mu(x) \]

  3. 交换求导与积分顺序(正则条件保证合法性):

    \[= \frac{\partial}{\partial \theta}\int \widehat{g}(x)f(x,\theta)d\mu(x) = \frac{\partial}{\partial \theta}\mathbb{E}[\widehat{g}(X)] \]

  4. 代入无偏性条件:\(\mathbb{E}[\widehat{g}(X)]=g(\theta)\),因此

    \[\frac{\partial}{\partial \theta}\mathbb{E}[\widehat{g}(X)] = g'(\theta) \]

    式(5.1.1)得证。

  5. 式(5.1.2)的证明:令\(g(\theta)=\theta\),则\(g'(\theta)=1\)\(\widehat{g}(X)=\widehat{\theta}(X)\)是θ的无偏估计,代入式(5.1.1)直接得到\(\text{Cov}_\theta(\widehat{\theta}(X), S(X,\theta)) = 1\)

引理意义:将待估参数的估计量与得分函数(Fisher信息)通过协方差建立了确定性联系,是推导C-R不等式的核心桥梁。


引理5.1.2 Schwarz不等式的方差形式

引理内容:若随机变量\(X,Y\)的二阶矩存在,则

\[\text{Var}(X)\cdot\text{Var}(Y) \geq [\text{Cov}(X,Y)]^2 \tag{5.1.3} \]

等号成立的充要条件是:存在常数\(\lambda\),使得\(X-\lambda Y = c\)(几乎处处成立,a.e.),其中\(c\)为常数;其中最优系数\(\lambda = \text{Cov}(X,Y)\text{Var}^{-1}(Y)\)

详细证明

  1. 构造随机变量\(Z=X-\lambda Y\),计算其方差:

    \[\text{Var}(Z) = \text{Var}(X-\lambda Y) = \text{Var}(X) + \lambda^2\text{Var}(Y) - 2\lambda\text{Cov}(X,Y) \]

  2. 求使\(\text{Var}(Z)\)最小的\(\lambda\)
    上式是关于\(\lambda\)的二次函数,开口向上,最小值在导数为0处取得。对\(\lambda\)求导并令导数为0:

    \[\frac{d}{d\lambda}\text{Var}(Z) = 2\lambda\text{Var}(Y) - 2\text{Cov}(X,Y) = 0 \]

    解得最优系数\(\lambda = \frac{\text{Cov}(X,Y)}{\text{Var}(Y)} = \text{Cov}(X,Y)\text{Var}^{-1}(Y)\)

  3. 代入最优\(\lambda\)化简方差:

    \[\text{Var}(X-\lambda Y) = \text{Var}(X) - \frac{[\text{Cov}(X,Y)]^2}{\text{Var}(Y)} \]

  4. 推导不等式:
    由方差的非负性\(\text{Var}(X-\lambda Y)\geq0\),因此

    \[\text{Var}(X) - \frac{[\text{Cov}(X,Y)]^2}{\text{Var}(Y)} \geq 0 \]

    两边乘以\(\text{Var}(Y)\),即得\(\text{Var}(X)\cdot\text{Var}(Y) \geq [\text{Cov}(X,Y)]^2\)

  5. 等号成立条件:
    不等式取等号当且仅当\(\text{Var}(X-\lambda Y)=0\),而随机变量方差为0的充要条件是该随机变量几乎处处等于常数,即\(X-\lambda Y = c\)(a.e.)。

引理意义:给出了方差乘积与协方差平方的不等关系,是C-R不等式的核心数学工具。

三、核心定理:单参数无偏估计的C-R不等式

定理5.1.1 内容

\(\{f(x,\theta), \theta\in\Theta\}\)为C-R分布族,\(\widehat{g}(X)\)\(g(\theta)\)的无偏估计,\(\widehat{\theta}(X)\)\(\theta\)的无偏估计,且\(g'(\theta)\)存在,则

\[\text{Var}_\theta[\widehat{g}(X)] \geq [g'(\theta)]^2 I^{-1}(\theta) \tag{5.1.6} \]

\[\text{Var}_\theta[\widehat{\theta}(X)] \geq I^{-1}(\theta) \tag{5.1.7} \]

等号成立(方差达到C-R下界)的充要条件分别为:

\[S(x,\theta) = a(\theta)[\widehat{g}(x)-g(\theta)] \ \text{(a.e.)} \tag{5.1.8} \]

\[S(x,\theta) = a(\theta)[\widehat{\theta}(x)-\theta] \ \text{(a.e.)} \tag{5.1.9} \]

其中\(a(\theta)\)是仅与\(\theta\)有关的函数。


定理详细证明

  1. 代入Schwarz不等式:令\(X=\widehat{g}(X)\)\(Y=S(X,\theta)\),代入引理5.1.2的不等式:

    \[\text{Var}(\widehat{g}) \cdot \text{Var}(S) \geq [\text{Cov}(\widehat{g}, S)]^2 \]

  2. 代入引理5.1.1与得分函数的性质:
    由引理5.1.1,\(\text{Cov}(\widehat{g}, S)=g'(\theta)\);由得分函数性质,\(\text{Var}(S)=I(\theta)\)。代入得:

    \[\text{Var}(\widehat{g}) \cdot I(\theta) \geq [g'(\theta)]^2 \]

  3. 变形得到C-R不等式:
    由正则条件\(I(\theta)>0\),两边除以\(I(\theta)\),不等号方向不变,得

    \[\text{Var}_\theta[\widehat{g}(X)] \geq \frac{[g'(\theta)]^2}{I(\theta)} = [g'(\theta)]^2 I^{-1}(\theta) \]

    式(5.1.6)得证。

  4. 式(5.1.7)的证明:令\(g(\theta)=\theta\),则\(g'(\theta)=1\),代入式(5.1.6)直接得到

    \[\text{Var}_\theta[\widehat{\theta}(X)] \geq \frac{1}{I(\theta)} = I^{-1}(\theta) \]


等号成立条件的证明

  1. Schwarz不等式等号成立的充要条件是:存在常数\(\lambda\),使得\(\widehat{g}(X) - \lambda S(X,\theta) = c(\theta)\)(a.e.),其中\(c(\theta)\)仅与\(\theta\)有关。
  2. 确定\(\lambda\)的取值:由引理5.1.2,最优\(\lambda = \text{Cov}(\widehat{g},S)\text{Var}^{-1}(S) = g'(\theta) I^{-1}(\theta)\)
  3. 确定常数\(c(\theta)\):对等式两边取期望\(\mathbb{E}_\theta\),左边为

    \[\mathbb{E}[\widehat{g}(X)] - \lambda \mathbb{E}[S(X,\theta)] = g(\theta) - \lambda \cdot 0 = g(\theta) \]

    右边为\(\mathbb{E}[c(\theta)]=c(\theta)\),因此\(c(\theta)=g(\theta)\)
  4. 变形得到最终形式:

    \[\widehat{g}(x) - \lambda S(x,\theta) = g(\theta) \implies S(x,\theta) = \frac{1}{\lambda}[\widehat{g}(x)-g(\theta)] \]

    \(a(\theta)=\frac{1}{\lambda}=\frac{I(\theta)}{g'(\theta)}\),即得式(5.1.8)。
  5. 式(5.1.9)的证明:令\(g(\theta)=\theta\),代入式(5.1.8)直接得证。

定理核心意义与有效估计定义

  1. 核心价值:C-R不等式给出了无偏估计量方差的理论下界——无论构造何种无偏估计,其方差都不可能低于该下界,且下界仅与待估函数、分布族的Fisher信息有关,与估计量形式无关。
  2. 有效估计定义(定义5.1.1)
    \(\widehat{g}(X)\)\(g(\theta)\)的无偏估计,若其方差达到C-R下界,即

    \[\text{Var}[\widehat{g}(X)] = [g'(\theta)]^2 I^{-1}(\theta) \]

    则称\(\widehat{g}(X)\)\(g(\theta)\)有效无偏估计
    特别地,若\(\text{Var}[\widehat{\theta}(X)] = I^{-1}(\theta)\),则称\(\widehat{\theta}(X)\)\(\theta\)的有效无偏估计。
  3. 推论1:有效无偏估计一定是一致最小方差无偏估计(UMVUE),但UMVUE不一定是有效估计。
    解释:有效估计的方差达到了所有无偏估计的下界,因此是方差最小的无偏估计;但部分分布族的UMVUE方差无法达到C-R下界,因此有效估计是UMVUE的“最优子集”。

四、拓展推论详解

推论2 独立同分布(i.i.d.)样本的C-R不等式

推论内容:若样本\(X=(X_1,X_2,\dots,X_n)^T\)独立同分布,单个样本\(X_1\)的Fisher信息为\(i(\theta)\),则

\[\text{Var}[\widehat{g}(X)] \geq \frac{1}{n}[g'(\theta)]^2 i^{-1}(\theta) = O(n^{-1}) \]

\[\text{Var}[\widehat{\theta}(X)] \geq \frac{1}{n}i^{-1}(\theta) = O(n^{-1}) \]

推导核心
n个i.i.d.样本的总Fisher信息\(I(\theta) = n\cdot i(\theta)\)(样本独立,得分函数的方差可加和),将其代入核心C-R不等式即可得证。

核心意义:C-R下界与样本量\(n\)成反比,样本量越大,估计的理论精度上限越高;当\(n\to\infty\)时,方差下界趋近于0,与估计量的相合性一致,同时给出了参数估计的经典收敛速度\(O(n^{-1})\)


推论3 有偏估计的C-R不等式

推论内容:若\(\widehat{g}(X)\)\(\widehat{\theta}(X)\)为有偏估计,偏差分别为\(b_g(\theta)=\mathbb{E}[\widehat{g}(X)]-g(\theta)\)\(b(\theta)=\mathbb{E}[\widehat{\theta}(X)]-\theta\),则

\[\text{Var}[\widehat{g}(X)] \geq [g'(\theta)+b_g'(\theta)]^2 I^{-1}(\theta) \]

\[\text{Var}[\widehat{\theta}(X)] \geq [1+b'(\theta)]^2 I^{-1}(\theta) \]

推导核心
对有偏估计,引理5.1.1的协方差结果变为\(\text{Cov}(\widehat{g},S) = \frac{\partial}{\partial \theta}\mathbb{E}[\widehat{g}(X)] = g'(\theta)+b_g'(\theta)\),将其代入Schwarz不等式即可得证。

核心意义:将C-R不等式从无偏估计推广到有偏估计,可用于衡量有偏估计的性能;有偏估计的C-R下界与估计量的偏差有关,这与无偏估计的“通用下界”不同。


推论4 参数变换下C-R下界的不变性

推论内容\(g(\theta)\)的无偏估计的C-R下界在参数变换下保持不变。即若做参数变换\(\theta=\theta(\eta)\),令\(g(\theta)=g(\theta(\eta))=\widetilde{g}(\eta)\),参数\(\eta\)的Fisher信息为\(I(\eta)\),则

\[\text{CRLB} = [g'(\theta)]^2 I^{-1}(\theta) = [\widetilde{g}'(\eta)]^2 I^{-1}(\eta) \]

推导核心

  1. 链式法则求导:\(\widetilde{g}'(\eta) = g'(\theta(\eta))\cdot\theta'(\eta)\),因此\([\widetilde{g}'(\eta)]^2 = [g'(\theta)]^2\cdot[\theta'(\eta)]^2\)
  2. 参数变换下Fisher信息的关系:\(I(\eta) = I(\theta(\eta))\cdot[\theta'(\eta)]^2\)
  3. 代入后\([\theta'(\eta)]^2\)抵消,因此C-R下界保持不变。

核心意义:C-R下界是参数的内在属性,不随参数的表示形式变化,保证了估计有效性的判断在参数变换下具有一致性。

五、知识点完整归纳总结

模块 核心内容 核心公式 适用条件 核心结论与意义
前置基础 C-R正则分布族 支撑集与θ无关、求导与积分可交换、Fisher信息正且有限 所有C-R不等式的前提 保证定理推导的数学合法性,是C-R不等式成立的基础
得分函数\(S(x,\theta)\) \(S(x,\theta)=\frac{\partial \log f(x,\theta)}{\partial \theta}\) C-R正则分布族 1. \(\mathbb{E}[S]=0\);2. \(\text{Var}(S)=I(\theta)\),连接估计量与Fisher信息的核心
Fisher信息\(I(\theta)\) \(I(\theta)=\mathbb{E}\left[\left(\frac{\partial \log f(X,\theta)}{\partial \theta}\right)^2\right]\) C-R正则分布族 衡量样本的参数信息量,\(I(\theta)\)越大,估计方差下界越小
核心引理 引理5.1.1 估计量-得分函数协方差 无偏估计:\(\text{Cov}(\widehat{g},S)=g'(\theta)\)\(\text{Cov}(\widehat{\theta},S)=1\) C-R分布族、估计量无偏、\(g'(\theta)\)存在 搭建估计量与Fisher信息的桥梁,是C-R不等式的核心基础
引理5.1.2 Schwarz方差不等式 \(\text{Var}(X)\text{Var}(Y)\geq [\text{Cov}(X,Y)]^2\) 随机变量二阶矩存在 C-R不等式的核心数学工具,给出方差的不等关系
核心定理 无偏估计C-R不等式 \(\text{Var}(\widehat{g})\geq [g'(\theta)]^2 I^{-1}(\theta)\)\(\text{Var}(\widehat{\theta})\geq I^{-1}(\theta)\) C-R分布族、估计量无偏、\(g'(\theta)\)存在 给出无偏估计方差的理论下界,任何无偏估计的方差无法低于该值
有效估计等号条件 \(S(x,\theta)=a(\theta)(\widehat{g}(x)-g(\theta))\)(a.e.) 上述C-R不等式适用条件 方差达到C-R下界的无偏估计为有效估计,是理论最优的无偏估计
拓展推论 推论1 有效估计与UMVUE 有效估计必为UMVUE,UMVUE不一定是有效估计 无偏估计、C-R分布族 有效估计是UMVUE的最优子集
推论2 i.i.d.样本的C-R下界 \(\text{Var}(\widehat{g})\geq \frac{1}{n}[g'(\theta)]^2 i^{-1}(\theta)\) 样本独立同分布、单样本Fisher信息\(i(\theta)\) 方差下界与样本量n成反比,收敛速度为\(O(n^{-1})\)
推论3 有偏估计的C-R不等式 \(\text{Var}(\widehat{g})\geq [g'(\theta)+b_g'(\theta)]^2 I^{-1}(\theta)\) C-R分布族、偏差函数可导 将C-R不等式推广到有偏估计,可分析有偏估计的性能
推论4 参数变换下的不变性 \([g'(\theta)]^2 I^{-1}(\theta) = [\widetilde{g}'(\eta)]^2 I^{-1}(\eta)\) 参数变换可导且可逆 C-R下界是参数的内在属性,不随参数表示形式变化

补充易错点说明

  1. 适用局限性:C-R不等式仅对满足C-R正则条件的分布族成立,例如均匀分布\(U(0,\theta)\)的支撑集与θ有关,不满足正则条件,因此C-R不等式对其无效。
  2. 有效估计的存在性:仅当得分函数可表示为\(S(x,\theta)=a(\theta)(\widehat{g}(x)-g(\theta))\)的形式时,才存在有效估计,该形式是指数族分布的核心特征,因此非指数族分布大多不存在有效估计。
  3. 有偏估计的有效性:有效估计的定义仅针对无偏估计,有偏估计即使方差小于C-R下界,也不能称为有效估计,其性能需用均方误差(MSE=方差+偏差平方)衡量。

C-R不等式典型例题详解与核心结论

本次内容完整拆解3道C-R不等式的核心例题,覆盖有效估计验证、渐近有效性分析、C-R不等式适用边界反例三大核心场景,每道例题均补充完整推导过程、核心逻辑与知识点关联。


例5.1.1 正态分布\(N(\mu,\sigma^2)\)参数的C-R下界与有效性分析

题目设定

\(X_1,X_2,\dots,X_n\)独立同分布,\(X_1 \sim N(\mu,\sigma^2)\),分别求参数\(\mu\)\(\sigma^2\)的无偏估计的C-R下界(CRLB),并判断估计量的有效性。

完整推导与分析

(1)参数\(\mu\)的无偏估计分析(\(\sigma^2\)视为已知常数)

步骤1:计算Fisher信息

单个样本的概率密度:

\[f(x;\mu) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(x-\mu)^2}{2\sigma^2} \right\} \]

对数似然函数:

\[\log f(x;\mu) = -\frac{1}{2}\log(2\pi\sigma^2) - \frac{(x-\mu)^2}{2\sigma^2} \]

得分函数(对\(\mu\)求一阶导):

\[\frac{\partial \log f}{\partial \mu} = \frac{x-\mu}{\sigma^2} \]

单个样本的Fisher信息(得分函数平方的期望):

\[i(\mu) = \mathbb{E}\left[ \left( \frac{\partial \log f}{\partial \mu} \right)^2 \right] = \mathbb{E}\left[ \frac{(X-\mu)^2}{\sigma^4} \right] = \frac{\sigma^2}{\sigma^4} = \frac{1}{\sigma^2} \]

\(n\)个独立同分布样本的总Fisher信息:

\[I(\mu) = n \cdot i(\mu) = \frac{n}{\sigma^2} \]

步骤2:确定无偏估计并计算方差

\(\mu\)的无偏估计为样本均值\(\hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\)

  • 无偏性验证:\(\mathbb{E}[\bar{X}] = \frac{1}{n}\sum_{i=1}^n \mathbb{E}[X_i] = \mu\),满足无偏性;
  • 方差计算:\(\text{Var}(\bar{X}) = \frac{1}{n^2}\sum_{i=1}^n \text{Var}(X_i) = \frac{\sigma^2}{n}\)
步骤3:计算C-R下界并判断有效性

待估函数\(g(\mu)=\mu\),故\(g'(\mu)=1\),C-R下界为:

\[\text{CRLB} = [g'(\mu)]^2 \cdot I^{-1}(\mu) = 1^2 \cdot \frac{\sigma^2}{n} = \frac{\sigma^2}{n} \]

由于\(\text{Var}(\hat{\mu}) = \text{CRLB}\),因此\(\hat{\mu}=\bar{X}\)\(\mu\)有效无偏估计


(2)参数\(\sigma^2\)的无偏估计分析(\(\mu\)视为未知参数)

步骤1:计算Fisher信息

令待估参数\(\theta=\sigma^2\),单个样本的概率密度:

\[f(x;\theta) = \frac{1}{\sqrt{2\pi\theta}} \exp\left\{ -\frac{(x-\mu)^2}{2\theta} \right\} \]

对数似然函数:

\[\log f(x;\theta) = -\frac{1}{2}\log(2\pi) - \frac{1}{2}\log\theta - \frac{(x-\mu)^2}{2\theta} \]

得分函数(对\(\theta\)求一阶导):

\[\frac{\partial \log f}{\partial \theta} = -\frac{1}{2\theta} + \frac{(x-\mu)^2}{2\theta^2} = \frac{(x-\mu)^2 - \theta}{2\theta^2} \]

单个样本的Fisher信息:

\[i(\theta) = \mathbb{E}\left[ \left( \frac{\partial \log f}{\partial \theta} \right)^2 \right] = \frac{\mathbb{E}\left[ ((X-\mu)^2 - \theta)^2 \right]}{4\theta^4} \]

由于\((X-\mu)^2 \sim \theta\cdot\chi^2(1)\),故\(\text{Var}((X-\mu)^2)=2\theta^2\),因此\(\mathbb{E}\left[ ((X-\mu)^2 - \theta)^2 \right] = 2\theta^2\),代入得:

\[i(\theta) = \frac{2\theta^2}{4\theta^4} = \frac{1}{2\theta^2} \]

\(n\)个样本的总Fisher信息:

\[I(\sigma^2) = n \cdot i(\sigma^2) = \frac{n}{2\sigma^4} \]

步骤2:确定无偏估计并计算方差

\(\sigma^2\)的无偏估计为样本方差\(\widehat{\sigma^2} = S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\)

  • 无偏性验证:\(\mathbb{E}[S^2] = \sigma^2\),满足无偏性;
  • 方差计算:正态分布下\(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\),而\(\text{Var}(\chi^2(k))=2k\),因此:

    \[\text{Var}\left( \frac{(n-1)S^2}{\sigma^2} \right) = 2(n-1) \implies \text{Var}(S^2) = \frac{2\sigma^4}{n-1} \]

步骤3:计算C-R下界并判断有效性

待估函数\(g(\sigma^2)=\sigma^2\),故\(g'(\sigma^2)=1\),C-R下界为:

\[\text{CRLB} = [g'(\sigma^2)]^2 \cdot I^{-1}(\sigma^2) = 1^2 \cdot \frac{2\sigma^4}{n} = \frac{2\sigma^4}{n} \]

由于\(\text{Var}(\widehat{\sigma^2}) = \frac{2\sigma^4}{n-1} > \frac{2\sigma^4}{n} = \text{CRLB}\),因此\(\widehat{\sigma^2}\)不是有效无偏估计

渐近有效性分析

估计量的效率定义为\(e(\widehat{g}) = \frac{\text{CRLB}}{\text{Var}(\widehat{g})}\),代入得:

\[e(\widehat{\sigma^2}) = \frac{2\sigma^4/n}{2\sigma^4/(n-1)} = \frac{n-1}{n} \]

\(n \to +\infty\)时,\(e(\widehat{\sigma^2}) \to 1\),因此\(\widehat{\sigma^2}\)\(\sigma^2\)渐近有效无偏估计


例5.1.2 泊松分布\(P(\lambda)\)参数的C-R下界与有效性分析

题目设定

\(X_1,X_2,\dots,X_n\)独立同分布,\(X_1 \sim P(\lambda)\)(泊松分布),分别求参数\(\lambda\)和待估函数\(g(\lambda)=e^{-\lambda}\)的无偏估计的C-R下界,并判断估计量的有效性。

完整推导与分析

泊松分布的分布律:\(P(X=x;\lambda) = \frac{\lambda^x e^{-\lambda}}{x!}, \ x=0,1,2,\dots\)

(1)参数\(\lambda\)的无偏估计分析

步骤1:计算Fisher信息

单个样本的对数似然函数:

\[\log f(x;\lambda) = x\log\lambda - \lambda - \log(x!) \]

得分函数(对\(\lambda\)求一阶导):

\[\frac{\partial \log f}{\partial \lambda} = \frac{x}{\lambda} - 1 = \frac{x-\lambda}{\lambda} \]

单个样本的Fisher信息:

\[i(\lambda) = \mathbb{E}\left[ \left( \frac{\partial \log f}{\partial \lambda} \right)^2 \right] = \mathbb{E}\left[ \frac{(X-\lambda)^2}{\lambda^2} \right] = \frac{\lambda}{\lambda^2} = \frac{1}{\lambda} \]

\(n\)个样本的总Fisher信息:

\[I(\lambda) = n \cdot i(\lambda) = \frac{n}{\lambda} \]

步骤2:确定无偏估计并计算方差

\(\lambda\)的无偏估计为样本均值\(\hat{\lambda} = \bar{X}\)

  • 无偏性验证:\(\mathbb{E}[\bar{X}] = \frac{1}{n}\sum_{i=1}^n \mathbb{E}[X_i] = \lambda\),满足无偏性;
  • 方差计算:\(\text{Var}(\bar{X}) = \frac{1}{n^2}\sum_{i=1}^n \text{Var}(X_i) = \frac{\lambda}{n}\)
步骤3:计算C-R下界并判断有效性

待估函数\(g(\lambda)=\lambda\),故\(g'(\lambda)=1\),C-R下界为:

\[\text{CRLB} = [g'(\lambda)]^2 \cdot I^{-1}(\lambda) = 1^2 \cdot \frac{\lambda}{n} = \frac{\lambda}{n} \]

由于\(\text{Var}(\hat{\lambda}) = \text{CRLB}\),因此\(\hat{\lambda}=\bar{X}\)\(\lambda\)有效无偏估计


(2)待估函数\(g(\lambda)=e^{-\lambda}\)的无偏估计分析

步骤1:计算C-R下界

\(g(\lambda)=e^{-\lambda}\),故\(g'(\lambda) = -e^{-\lambda}\)\([g'(\lambda)]^2 = e^{-2\lambda}\),结合总Fisher信息\(I(\lambda)=\frac{n}{\lambda}\),C-R下界为:

\[\text{CRLB} = [g'(\lambda)]^2 \cdot I^{-1}(\lambda) = e^{-2\lambda} \cdot \frac{\lambda}{n} = \frac{\lambda e^{-2\lambda}}{n} \]

步骤2:确定无偏估计并计算方差

\(e^{-\lambda}\)的无偏估计为\(\widehat{g}(X) = \left(1-\frac{1}{n}\right)^T\),其中\(T=\sum_{i=1}^n X_i\)

  • 无偏性验证:泊松分布具有可加性,\(T \sim P(n\lambda)\),其概率生成函数为\(G_T(s) = \mathbb{E}[s^T] = \exp\{n\lambda(s-1)\}\)。令\(s=1-\frac{1}{n}\),则:

    \[\mathbb{E}\left[ \left(1-\frac{1}{n}\right)^T \right] = \exp\left\{ n\lambda\left(1-\frac{1}{n} - 1\right) \right\} = e^{-\lambda} \]

    满足无偏性。
  • 方差计算:\(\text{Var}(\widehat{g}) = \mathbb{E}[\widehat{g}^2] - (\mathbb{E}[\widehat{g}])^2\),其中:

    \[\mathbb{E}[\widehat{g}^2] = \mathbb{E}\left[ \left(1-\frac{1}{n}\right)^{2T} \right] = \exp\left\{ n\lambda\left( \left(1-\frac{1}{n}\right)^2 - 1 \right) \right\} = e^{-2\lambda} e^{\lambda/n} \]

    因此:

    \[\text{Var}(\widehat{g}) = e^{-2\lambda}e^{\lambda/n} - e^{-2\lambda} = e^{-2\lambda}\left( e^{\lambda/n} - 1 \right) \]

步骤3:有效性与渐近有效性分析

由泰勒展开\(e^{\lambda/n} - 1 = \frac{\lambda}{n} + \frac{(\lambda/n)^2}{2} + \dots > \frac{\lambda}{n}\),因此\(\text{Var}(\widehat{g}) > \text{CRLB}\)\(\widehat{g}\)不是有效无偏估计

效率计算:

\[e(\widehat{g}) = \frac{\text{CRLB}}{\text{Var}(\widehat{g})} = \frac{\lambda e^{-2\lambda}/n}{e^{-2\lambda}(e^{\lambda/n}-1)} = \frac{\lambda/n}{e^{\lambda/n}-1} \]

\(n \to +\infty\)时,\(\frac{\lambda}{n} \to 0\)\(e^{\lambda/n}-1 \sim \frac{\lambda}{n}\),故\(e(\widehat{g}) \to 1\),因此\(\widehat{g}\)\(e^{-\lambda}\)渐近有效无偏估计


渐近有效性定义(定义5.1.2)

\(\widehat{g}(X)\)\(g(\theta)\)的无偏估计,其效率为:

\[e(\widehat{g}) = \frac{\text{CRLB}}{\text{Var}[\widehat{g}(X)]} \]

若当\(n \to +\infty\)时,\(e(\widehat{g}) \to 1\),则称\(\widehat{g}(X)\)渐近有效的无偏估计

注:效率\(e(\widehat{g}) \leq 1\),越接近1,估计量的渐近性能越好;\(e(\widehat{g})=1\)时为有效估计。


例5.1.3 均匀分布\(R(0,\theta)\)的反例:C-R不等式的适用边界

题目设定

\(X_1,X_2,\dots,X_n\)独立同分布,\(X_1 \sim R(0,\theta)\)(区间\((0,\theta)\)上的均匀分布),分析C-R不等式的适用性。

核心推导与结论

(1)C-R正则条件不满足

均匀分布\(R(0,\theta)\)的概率密度为:

\[f(x;\theta) = \begin{cases} \frac{1}{\theta}, & 0 < x < \theta \\ 0, & \text{其他} \end{cases}\]

其支撑集\(\{x:f(x;\theta)>0\}=(0,\theta)\),与参数\(\theta\)直接相关,不满足C-R分布族的核心正则条件(支撑集与参数无关),因此C-R不等式对该分布族不成立。

(2)无偏估计的方差计算

\(\theta\)的无偏估计为\(\hat{\theta}(X) = \frac{n+1}{n}X_{(n)}\),其中\(X_{(n)}\)为样本的最大值(次序统计量):

  • 无偏性验证:\(X_{(n)}\)的概率密度为\(f_n(x) = \frac{n x^{n-1}}{\theta^n}, 0<x<\theta\),因此:

    \[\mathbb{E}[X_{(n)}] = \int_0^\theta x \cdot \frac{n x^{n-1}}{\theta^n} dx = \frac{n\theta}{n+1} \]

    \(\mathbb{E}[\hat{\theta}] = \frac{n+1}{n} \cdot \frac{n\theta}{n+1} = \theta\),满足无偏性。
  • 方差计算:

    \[\mathbb{E}[X_{(n)}^2] = \int_0^\theta x^2 \cdot \frac{n x^{n-1}}{\theta^n} dx = \frac{n\theta^2}{n+2} \]

    \[\text{Var}(X_{(n)}) = \frac{n\theta^2}{n+2} - \left( \frac{n\theta}{n+1} \right)^2 = \frac{n\theta^2}{(n+2)(n+1)^2} \]

    因此:

    \[\text{Var}(\hat{\theta}) = \left( \frac{n+1}{n} \right)^2 \cdot \text{Var}(X_{(n)}) = \frac{\theta^2}{n(n+2)} \]

(3)形式化C-R下界与矛盾

若忽略正则条件,形式化计算Fisher信息:
对数似然函数\(\log f(x;\theta) = -\log\theta\),得分函数\(\frac{\partial \log f}{\partial \theta} = -\frac{1}{\theta}\),形式化的Fisher信息:

\[i(\theta) = \mathbb{E}\left[ \left( \frac{\partial \log f}{\partial \theta} \right)^2 \right] = \frac{1}{\theta^2}, \quad I(\theta) = \frac{n}{\theta^2} \]

形式化的C-R下界为:

\[\text{“CRLB”} = I^{-1}(\theta) = \frac{\theta^2}{n} \]

此时出现明显矛盾:\(\text{Var}(\hat{\theta}) = \frac{\theta^2}{n(n+2)} < \frac{\theta^2}{n} = \text{“CRLB”}\),即估计量的方差小于形式上的C-R下界。

核心结论

该反例明确了C-R不等式的适用前提:仅对满足C-R正则条件的分布族成立;若分布族不满足正则条件(如支撑集与参数相关),C-R下界无意义,强行套用会出现与理论矛盾的结果。


三道例题核心信息对比表

分布类型 待估参数/函数 无偏估计 C-R下界 估计量方差 有效性 核心结论
正态分布\(N(\mu,\sigma^2)\) \(\mu\) \(\bar{X}\) \(\sigma^2/n\) \(\sigma^2/n\) 有效无偏估计 样本均值是正态均值的有效估计
正态分布\(N(\mu,\sigma^2)\) \(\sigma^2\) 样本方差\(S^2\) \(2\sigma^4/n\) \(2\sigma^4/(n-1)\) 渐近有效无偏估计 样本方差无法达到C-R下界,但大样本下渐近有效
泊松分布\(P(\lambda)\) \(\lambda\) \(\bar{X}\) \(\lambda/n\) \(\lambda/n\) 有效无偏估计 样本均值是泊松参数的有效估计
泊松分布\(P(\lambda)\) \(e^{-\lambda}\) \((1-1/n)^{\sum X_i}\) \(\lambda e^{-2\lambda}/n\) \(e^{-2\lambda}(e^{\lambda/n}-1)\) 渐近有效无偏估计 非线性待估函数的无偏估计难以达到C-R下界,大样本下渐近有效
均匀分布\(R(0,\theta)\) \(\theta\) \(\frac{n+1}{n}X_{(n)}\) 形式化\(\theta^2/n\) \(\theta^2/[n(n+2)]\) 不适用C-R不等式 不满足C-R正则条件,C-R下界无意义,不能套用不等式

核心知识点总结

  1. 有效估计的本质:仅当估计量的方差达到C-R下界时,才是有效无偏估计;指数族分布(正态、泊松、二项等)的线性参数通常存在有效估计,非线性参数通常不存在有限样本下的有效估计。
  2. 渐近有效性的意义:对于不存在有效估计的参数,可通过渐近有效性衡量大样本下的估计性能,绝大多数常用估计量都具有渐近有效性。
  3. C-R不等式的边界:必须满足C-R正则条件(核心是支撑集与参数无关),否则C-R不等式不成立,不能直接套用公式计算下界。

posted on 2026-02-24 15:29  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航