5.1.1单参数C-R不等式
单参数C-R(克拉默-拉奥)不等式 完整讲解与推导
C-R不等式是参数估计领域的核心定理,它给出了参数估计量方差的理论下界(C-R下界,CRLB),是判断估计量“有效性”的黄金标准。以下将从基础概念、引理推导、核心定理、推论拓展四个维度,完整拆解该知识点。
一、前置核心概念(定理成立的前提)
要理解C-R不等式,必须先掌握3个核心基础概念,同时明确C-R不等式的适用前提——C-R正则分布族。
1. C-R正则分布族
我们讨论的总体分布族\(\{f(x,\theta), \theta\in\Theta\}\)(\(f(x,\theta)\)为概率密度/分布列,\(\Theta\)为参数空间,是\(\mathbb{R}\)上的开区间)必须满足以下正则条件,C-R不等式才成立:
- 支撑集\(\{x: f(x,\theta)>0\}\)与参数\(\theta\)无关(密度非零的x范围不随θ变化);
- 对几乎所有的x,\(\frac{\partial f(x,\theta)}{\partial \theta}\)存在,且关于θ可导;
- 对参数的求导与对样本的积分/求和可交换顺序,即\(\frac{\partial}{\partial \theta}\int \cdot f(x,\theta)d\mu(x) = \int \cdot \frac{\partial f(x,\theta)}{\partial \theta}d\mu(x)\);
- Fisher信息\(I(\theta)\)存在,且满足\(0<I(\theta)<+\infty\);
- 待估函数\(g(\theta)\)的导数\(g'(\theta)\)存在且有限。
2. 得分函数(Score Function)\(S(x,\theta)\)
定义:对数似然函数关于参数的一阶导数,即
核心性质(所有推导的基础):
-
期望为0:\(\mathbb{E}_\theta[S(X,\theta)] = 0\)
证明:\[\mathbb{E}_\theta[S(X,\theta)] = \int S(x,\theta)f(x,\theta)d\mu(x) = \int \frac{\partial f(x,\theta)}{\partial \theta}d\mu(x) \]由正则条件,求导与积分可交换,因此
\[= \frac{\partial}{\partial \theta}\int f(x,\theta)d\mu(x) = \frac{\partial}{\partial \theta}1 = 0 \](密度函数的积分恒为1,导数为0)
-
方差等于Fisher信息:\(\text{Var}_\theta[S(X,\theta)] = \mathbb{E}_\theta[S(X,\theta)^2] = I(\theta)\)
证明:
由\(\mathbb{E}[S]=0\),方差的定义为\(\text{Var}(S) = \mathbb{E}[S^2] - (\mathbb{E}[S])^2 = \mathbb{E}[S^2]\),这正是Fisher信息的定义。
3. Fisher信息\(I(\theta)\)
定义:\(I(\theta) = \mathbb{E}_\theta\left[\left(\frac{\partial \log f(X,\theta)}{\partial \theta}\right)^2\right]\)
核心意义:衡量样本中包含的关于参数\(\theta\)的信息量。\(I(\theta)\)越大,样本携带的参数信息越多,估计量的方差下界越小,估计的理论精度上限越高。
二、核心引理推导
C-R不等式的证明依赖两个核心引理,分别搭建“估计量-得分函数”的桥梁,和提供不等式的数学基础。
引理5.1.1 估计量与得分函数的协方差关系
引理内容:设\(\{f(x,\theta), \theta\in\Theta\}\)为C-R分布族,\(\widehat{g}(X)\)是\(g(\theta)\)的无偏估计,\(\widehat{\theta}(X)\)是\(\theta\)的无偏估计,且\(g'(\theta)\)存在,则
详细证明:
-
协方差简化:由协方差定义\(\text{Cov}(U,V)=\mathbb{E}[(U-\mathbb{E}U)(V-\mathbb{E}V)]\),令\(U=\widehat{g}(X)\),\(V=S(X,\theta)\)。
已知\(\mathbb{E}[S]=0\),且\(\widehat{g}\)是无偏估计,即\(\mathbb{E}[\widehat{g}]=g(\theta)\)(与x无关的常数),因此\[\text{Cov}(\widehat{g},S) = \mathbb{E}[(\widehat{g}-\mathbb{E}\widehat{g})S] = \mathbb{E}[\widehat{g}S] - \mathbb{E}[\widehat{g}]\cdot\mathbb{E}[S] = \mathbb{E}[\widehat{g}S] \] -
展开期望并化简:
\[\mathbb{E}[\widehat{g}S] = \int \widehat{g}(x) \cdot \frac{1}{f(x,\theta)}\frac{\partial f(x,\theta)}{\partial \theta} \cdot f(x,\theta)d\mu(x) = \int \widehat{g}(x)\frac{\partial f(x,\theta)}{\partial \theta}d\mu(x) \] -
交换求导与积分顺序(正则条件保证合法性):
\[= \frac{\partial}{\partial \theta}\int \widehat{g}(x)f(x,\theta)d\mu(x) = \frac{\partial}{\partial \theta}\mathbb{E}[\widehat{g}(X)] \] -
代入无偏性条件:\(\mathbb{E}[\widehat{g}(X)]=g(\theta)\),因此
\[\frac{\partial}{\partial \theta}\mathbb{E}[\widehat{g}(X)] = g'(\theta) \]式(5.1.1)得证。
-
式(5.1.2)的证明:令\(g(\theta)=\theta\),则\(g'(\theta)=1\),\(\widehat{g}(X)=\widehat{\theta}(X)\)是θ的无偏估计,代入式(5.1.1)直接得到\(\text{Cov}_\theta(\widehat{\theta}(X), S(X,\theta)) = 1\)。
引理意义:将待估参数的估计量与得分函数(Fisher信息)通过协方差建立了确定性联系,是推导C-R不等式的核心桥梁。
引理5.1.2 Schwarz不等式的方差形式
引理内容:若随机变量\(X,Y\)的二阶矩存在,则
等号成立的充要条件是:存在常数\(\lambda\),使得\(X-\lambda Y = c\)(几乎处处成立,a.e.),其中\(c\)为常数;其中最优系数\(\lambda = \text{Cov}(X,Y)\text{Var}^{-1}(Y)\)。
详细证明:
-
构造随机变量\(Z=X-\lambda Y\),计算其方差:
\[\text{Var}(Z) = \text{Var}(X-\lambda Y) = \text{Var}(X) + \lambda^2\text{Var}(Y) - 2\lambda\text{Cov}(X,Y) \] -
求使\(\text{Var}(Z)\)最小的\(\lambda\):
上式是关于\(\lambda\)的二次函数,开口向上,最小值在导数为0处取得。对\(\lambda\)求导并令导数为0:\[\frac{d}{d\lambda}\text{Var}(Z) = 2\lambda\text{Var}(Y) - 2\text{Cov}(X,Y) = 0 \]解得最优系数\(\lambda = \frac{\text{Cov}(X,Y)}{\text{Var}(Y)} = \text{Cov}(X,Y)\text{Var}^{-1}(Y)\)。
-
代入最优\(\lambda\)化简方差:
\[\text{Var}(X-\lambda Y) = \text{Var}(X) - \frac{[\text{Cov}(X,Y)]^2}{\text{Var}(Y)} \] -
推导不等式:
由方差的非负性\(\text{Var}(X-\lambda Y)\geq0\),因此\[\text{Var}(X) - \frac{[\text{Cov}(X,Y)]^2}{\text{Var}(Y)} \geq 0 \]两边乘以\(\text{Var}(Y)\),即得\(\text{Var}(X)\cdot\text{Var}(Y) \geq [\text{Cov}(X,Y)]^2\)。
-
等号成立条件:
不等式取等号当且仅当\(\text{Var}(X-\lambda Y)=0\),而随机变量方差为0的充要条件是该随机变量几乎处处等于常数,即\(X-\lambda Y = c\)(a.e.)。
引理意义:给出了方差乘积与协方差平方的不等关系,是C-R不等式的核心数学工具。
三、核心定理:单参数无偏估计的C-R不等式
定理5.1.1 内容
设\(\{f(x,\theta), \theta\in\Theta\}\)为C-R分布族,\(\widehat{g}(X)\)是\(g(\theta)\)的无偏估计,\(\widehat{\theta}(X)\)是\(\theta\)的无偏估计,且\(g'(\theta)\)存在,则
等号成立(方差达到C-R下界)的充要条件分别为:
其中\(a(\theta)\)是仅与\(\theta\)有关的函数。
定理详细证明
-
代入Schwarz不等式:令\(X=\widehat{g}(X)\),\(Y=S(X,\theta)\),代入引理5.1.2的不等式:
\[\text{Var}(\widehat{g}) \cdot \text{Var}(S) \geq [\text{Cov}(\widehat{g}, S)]^2 \] -
代入引理5.1.1与得分函数的性质:
由引理5.1.1,\(\text{Cov}(\widehat{g}, S)=g'(\theta)\);由得分函数性质,\(\text{Var}(S)=I(\theta)\)。代入得:\[\text{Var}(\widehat{g}) \cdot I(\theta) \geq [g'(\theta)]^2 \] -
变形得到C-R不等式:
由正则条件\(I(\theta)>0\),两边除以\(I(\theta)\),不等号方向不变,得\[\text{Var}_\theta[\widehat{g}(X)] \geq \frac{[g'(\theta)]^2}{I(\theta)} = [g'(\theta)]^2 I^{-1}(\theta) \]式(5.1.6)得证。
-
式(5.1.7)的证明:令\(g(\theta)=\theta\),则\(g'(\theta)=1\),代入式(5.1.6)直接得到
\[\text{Var}_\theta[\widehat{\theta}(X)] \geq \frac{1}{I(\theta)} = I^{-1}(\theta) \]
等号成立条件的证明
- Schwarz不等式等号成立的充要条件是:存在常数\(\lambda\),使得\(\widehat{g}(X) - \lambda S(X,\theta) = c(\theta)\)(a.e.),其中\(c(\theta)\)仅与\(\theta\)有关。
- 确定\(\lambda\)的取值:由引理5.1.2,最优\(\lambda = \text{Cov}(\widehat{g},S)\text{Var}^{-1}(S) = g'(\theta) I^{-1}(\theta)\)。
- 确定常数\(c(\theta)\):对等式两边取期望\(\mathbb{E}_\theta\),左边为\[\mathbb{E}[\widehat{g}(X)] - \lambda \mathbb{E}[S(X,\theta)] = g(\theta) - \lambda \cdot 0 = g(\theta) \]右边为\(\mathbb{E}[c(\theta)]=c(\theta)\),因此\(c(\theta)=g(\theta)\)。
- 变形得到最终形式:\[\widehat{g}(x) - \lambda S(x,\theta) = g(\theta) \implies S(x,\theta) = \frac{1}{\lambda}[\widehat{g}(x)-g(\theta)] \]令\(a(\theta)=\frac{1}{\lambda}=\frac{I(\theta)}{g'(\theta)}\),即得式(5.1.8)。
- 式(5.1.9)的证明:令\(g(\theta)=\theta\),代入式(5.1.8)直接得证。
定理核心意义与有效估计定义
- 核心价值:C-R不等式给出了无偏估计量方差的理论下界——无论构造何种无偏估计,其方差都不可能低于该下界,且下界仅与待估函数、分布族的Fisher信息有关,与估计量形式无关。
- 有效估计定义(定义5.1.1):
设\(\widehat{g}(X)\)是\(g(\theta)\)的无偏估计,若其方差达到C-R下界,即\[\text{Var}[\widehat{g}(X)] = [g'(\theta)]^2 I^{-1}(\theta) \]则称\(\widehat{g}(X)\)为\(g(\theta)\)的有效无偏估计。
特别地,若\(\text{Var}[\widehat{\theta}(X)] = I^{-1}(\theta)\),则称\(\widehat{\theta}(X)\)为\(\theta\)的有效无偏估计。 - 推论1:有效无偏估计一定是一致最小方差无偏估计(UMVUE),但UMVUE不一定是有效估计。
解释:有效估计的方差达到了所有无偏估计的下界,因此是方差最小的无偏估计;但部分分布族的UMVUE方差无法达到C-R下界,因此有效估计是UMVUE的“最优子集”。
四、拓展推论详解
推论2 独立同分布(i.i.d.)样本的C-R不等式
推论内容:若样本\(X=(X_1,X_2,\dots,X_n)^T\)独立同分布,单个样本\(X_1\)的Fisher信息为\(i(\theta)\),则
推导核心:
n个i.i.d.样本的总Fisher信息\(I(\theta) = n\cdot i(\theta)\)(样本独立,得分函数的方差可加和),将其代入核心C-R不等式即可得证。
核心意义:C-R下界与样本量\(n\)成反比,样本量越大,估计的理论精度上限越高;当\(n\to\infty\)时,方差下界趋近于0,与估计量的相合性一致,同时给出了参数估计的经典收敛速度\(O(n^{-1})\)。
推论3 有偏估计的C-R不等式
推论内容:若\(\widehat{g}(X)\)、\(\widehat{\theta}(X)\)为有偏估计,偏差分别为\(b_g(\theta)=\mathbb{E}[\widehat{g}(X)]-g(\theta)\)、\(b(\theta)=\mathbb{E}[\widehat{\theta}(X)]-\theta\),则
推导核心:
对有偏估计,引理5.1.1的协方差结果变为\(\text{Cov}(\widehat{g},S) = \frac{\partial}{\partial \theta}\mathbb{E}[\widehat{g}(X)] = g'(\theta)+b_g'(\theta)\),将其代入Schwarz不等式即可得证。
核心意义:将C-R不等式从无偏估计推广到有偏估计,可用于衡量有偏估计的性能;有偏估计的C-R下界与估计量的偏差有关,这与无偏估计的“通用下界”不同。
推论4 参数变换下C-R下界的不变性
推论内容:\(g(\theta)\)的无偏估计的C-R下界在参数变换下保持不变。即若做参数变换\(\theta=\theta(\eta)\),令\(g(\theta)=g(\theta(\eta))=\widetilde{g}(\eta)\),参数\(\eta\)的Fisher信息为\(I(\eta)\),则
推导核心:
- 链式法则求导:\(\widetilde{g}'(\eta) = g'(\theta(\eta))\cdot\theta'(\eta)\),因此\([\widetilde{g}'(\eta)]^2 = [g'(\theta)]^2\cdot[\theta'(\eta)]^2\);
- 参数变换下Fisher信息的关系:\(I(\eta) = I(\theta(\eta))\cdot[\theta'(\eta)]^2\);
- 代入后\([\theta'(\eta)]^2\)抵消,因此C-R下界保持不变。
核心意义:C-R下界是参数的内在属性,不随参数的表示形式变化,保证了估计有效性的判断在参数变换下具有一致性。
五、知识点完整归纳总结
| 模块 | 核心内容 | 核心公式 | 适用条件 | 核心结论与意义 |
|---|---|---|---|---|
| 前置基础 | C-R正则分布族 | 支撑集与θ无关、求导与积分可交换、Fisher信息正且有限 | 所有C-R不等式的前提 | 保证定理推导的数学合法性,是C-R不等式成立的基础 |
| 得分函数\(S(x,\theta)\) | \(S(x,\theta)=\frac{\partial \log f(x,\theta)}{\partial \theta}\) | C-R正则分布族 | 1. \(\mathbb{E}[S]=0\);2. \(\text{Var}(S)=I(\theta)\),连接估计量与Fisher信息的核心 | |
| Fisher信息\(I(\theta)\) | \(I(\theta)=\mathbb{E}\left[\left(\frac{\partial \log f(X,\theta)}{\partial \theta}\right)^2\right]\) | C-R正则分布族 | 衡量样本的参数信息量,\(I(\theta)\)越大,估计方差下界越小 | |
| 核心引理 | 引理5.1.1 估计量-得分函数协方差 | 无偏估计:\(\text{Cov}(\widehat{g},S)=g'(\theta)\);\(\text{Cov}(\widehat{\theta},S)=1\) | C-R分布族、估计量无偏、\(g'(\theta)\)存在 | 搭建估计量与Fisher信息的桥梁,是C-R不等式的核心基础 |
| 引理5.1.2 Schwarz方差不等式 | \(\text{Var}(X)\text{Var}(Y)\geq [\text{Cov}(X,Y)]^2\) | 随机变量二阶矩存在 | C-R不等式的核心数学工具,给出方差的不等关系 | |
| 核心定理 | 无偏估计C-R不等式 | \(\text{Var}(\widehat{g})\geq [g'(\theta)]^2 I^{-1}(\theta)\);\(\text{Var}(\widehat{\theta})\geq I^{-1}(\theta)\) | C-R分布族、估计量无偏、\(g'(\theta)\)存在 | 给出无偏估计方差的理论下界,任何无偏估计的方差无法低于该值 |
| 有效估计等号条件 | \(S(x,\theta)=a(\theta)(\widehat{g}(x)-g(\theta))\)(a.e.) | 上述C-R不等式适用条件 | 方差达到C-R下界的无偏估计为有效估计,是理论最优的无偏估计 | |
| 拓展推论 | 推论1 有效估计与UMVUE | 有效估计必为UMVUE,UMVUE不一定是有效估计 | 无偏估计、C-R分布族 | 有效估计是UMVUE的最优子集 |
| 推论2 i.i.d.样本的C-R下界 | \(\text{Var}(\widehat{g})\geq \frac{1}{n}[g'(\theta)]^2 i^{-1}(\theta)\) | 样本独立同分布、单样本Fisher信息\(i(\theta)\) | 方差下界与样本量n成反比,收敛速度为\(O(n^{-1})\) | |
| 推论3 有偏估计的C-R不等式 | \(\text{Var}(\widehat{g})\geq [g'(\theta)+b_g'(\theta)]^2 I^{-1}(\theta)\) | C-R分布族、偏差函数可导 | 将C-R不等式推广到有偏估计,可分析有偏估计的性能 | |
| 推论4 参数变换下的不变性 | \([g'(\theta)]^2 I^{-1}(\theta) = [\widetilde{g}'(\eta)]^2 I^{-1}(\eta)\) | 参数变换可导且可逆 | C-R下界是参数的内在属性,不随参数表示形式变化 |
补充易错点说明
- 适用局限性:C-R不等式仅对满足C-R正则条件的分布族成立,例如均匀分布\(U(0,\theta)\)的支撑集与θ有关,不满足正则条件,因此C-R不等式对其无效。
- 有效估计的存在性:仅当得分函数可表示为\(S(x,\theta)=a(\theta)(\widehat{g}(x)-g(\theta))\)的形式时,才存在有效估计,该形式是指数族分布的核心特征,因此非指数族分布大多不存在有效估计。
- 有偏估计的有效性:有效估计的定义仅针对无偏估计,有偏估计即使方差小于C-R下界,也不能称为有效估计,其性能需用均方误差(MSE=方差+偏差平方)衡量。
C-R不等式典型例题详解与核心结论
本次内容完整拆解3道C-R不等式的核心例题,覆盖有效估计验证、渐近有效性分析、C-R不等式适用边界反例三大核心场景,每道例题均补充完整推导过程、核心逻辑与知识点关联。
例5.1.1 正态分布\(N(\mu,\sigma^2)\)参数的C-R下界与有效性分析
题目设定
设\(X_1,X_2,\dots,X_n\)独立同分布,\(X_1 \sim N(\mu,\sigma^2)\),分别求参数\(\mu\)和\(\sigma^2\)的无偏估计的C-R下界(CRLB),并判断估计量的有效性。
完整推导与分析
(1)参数\(\mu\)的无偏估计分析(\(\sigma^2\)视为已知常数)
步骤1:计算Fisher信息
单个样本的概率密度:
对数似然函数:
得分函数(对\(\mu\)求一阶导):
单个样本的Fisher信息(得分函数平方的期望):
\(n\)个独立同分布样本的总Fisher信息:
步骤2:确定无偏估计并计算方差
取\(\mu\)的无偏估计为样本均值\(\hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\):
- 无偏性验证:\(\mathbb{E}[\bar{X}] = \frac{1}{n}\sum_{i=1}^n \mathbb{E}[X_i] = \mu\),满足无偏性;
- 方差计算:\(\text{Var}(\bar{X}) = \frac{1}{n^2}\sum_{i=1}^n \text{Var}(X_i) = \frac{\sigma^2}{n}\)。
步骤3:计算C-R下界并判断有效性
待估函数\(g(\mu)=\mu\),故\(g'(\mu)=1\),C-R下界为:
由于\(\text{Var}(\hat{\mu}) = \text{CRLB}\),因此\(\hat{\mu}=\bar{X}\)是\(\mu\)的有效无偏估计。
(2)参数\(\sigma^2\)的无偏估计分析(\(\mu\)视为未知参数)
步骤1:计算Fisher信息
令待估参数\(\theta=\sigma^2\),单个样本的概率密度:
对数似然函数:
得分函数(对\(\theta\)求一阶导):
单个样本的Fisher信息:
由于\((X-\mu)^2 \sim \theta\cdot\chi^2(1)\),故\(\text{Var}((X-\mu)^2)=2\theta^2\),因此\(\mathbb{E}\left[ ((X-\mu)^2 - \theta)^2 \right] = 2\theta^2\),代入得:
\(n\)个样本的总Fisher信息:
步骤2:确定无偏估计并计算方差
取\(\sigma^2\)的无偏估计为样本方差\(\widehat{\sigma^2} = S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\):
- 无偏性验证:\(\mathbb{E}[S^2] = \sigma^2\),满足无偏性;
- 方差计算:正态分布下\(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\),而\(\text{Var}(\chi^2(k))=2k\),因此:\[\text{Var}\left( \frac{(n-1)S^2}{\sigma^2} \right) = 2(n-1) \implies \text{Var}(S^2) = \frac{2\sigma^4}{n-1} \]
步骤3:计算C-R下界并判断有效性
待估函数\(g(\sigma^2)=\sigma^2\),故\(g'(\sigma^2)=1\),C-R下界为:
由于\(\text{Var}(\widehat{\sigma^2}) = \frac{2\sigma^4}{n-1} > \frac{2\sigma^4}{n} = \text{CRLB}\),因此\(\widehat{\sigma^2}\)不是有效无偏估计。
渐近有效性分析
估计量的效率定义为\(e(\widehat{g}) = \frac{\text{CRLB}}{\text{Var}(\widehat{g})}\),代入得:
当\(n \to +\infty\)时,\(e(\widehat{\sigma^2}) \to 1\),因此\(\widehat{\sigma^2}\)是\(\sigma^2\)的渐近有效无偏估计。
例5.1.2 泊松分布\(P(\lambda)\)参数的C-R下界与有效性分析
题目设定
设\(X_1,X_2,\dots,X_n\)独立同分布,\(X_1 \sim P(\lambda)\)(泊松分布),分别求参数\(\lambda\)和待估函数\(g(\lambda)=e^{-\lambda}\)的无偏估计的C-R下界,并判断估计量的有效性。
完整推导与分析
泊松分布的分布律:\(P(X=x;\lambda) = \frac{\lambda^x e^{-\lambda}}{x!}, \ x=0,1,2,\dots\)
(1)参数\(\lambda\)的无偏估计分析
步骤1:计算Fisher信息
单个样本的对数似然函数:
得分函数(对\(\lambda\)求一阶导):
单个样本的Fisher信息:
\(n\)个样本的总Fisher信息:
步骤2:确定无偏估计并计算方差
取\(\lambda\)的无偏估计为样本均值\(\hat{\lambda} = \bar{X}\):
- 无偏性验证:\(\mathbb{E}[\bar{X}] = \frac{1}{n}\sum_{i=1}^n \mathbb{E}[X_i] = \lambda\),满足无偏性;
- 方差计算:\(\text{Var}(\bar{X}) = \frac{1}{n^2}\sum_{i=1}^n \text{Var}(X_i) = \frac{\lambda}{n}\)。
步骤3:计算C-R下界并判断有效性
待估函数\(g(\lambda)=\lambda\),故\(g'(\lambda)=1\),C-R下界为:
由于\(\text{Var}(\hat{\lambda}) = \text{CRLB}\),因此\(\hat{\lambda}=\bar{X}\)是\(\lambda\)的有效无偏估计。
(2)待估函数\(g(\lambda)=e^{-\lambda}\)的无偏估计分析
步骤1:计算C-R下界
\(g(\lambda)=e^{-\lambda}\),故\(g'(\lambda) = -e^{-\lambda}\),\([g'(\lambda)]^2 = e^{-2\lambda}\),结合总Fisher信息\(I(\lambda)=\frac{n}{\lambda}\),C-R下界为:
步骤2:确定无偏估计并计算方差
取\(e^{-\lambda}\)的无偏估计为\(\widehat{g}(X) = \left(1-\frac{1}{n}\right)^T\),其中\(T=\sum_{i=1}^n X_i\):
- 无偏性验证:泊松分布具有可加性,\(T \sim P(n\lambda)\),其概率生成函数为\(G_T(s) = \mathbb{E}[s^T] = \exp\{n\lambda(s-1)\}\)。令\(s=1-\frac{1}{n}\),则:\[\mathbb{E}\left[ \left(1-\frac{1}{n}\right)^T \right] = \exp\left\{ n\lambda\left(1-\frac{1}{n} - 1\right) \right\} = e^{-\lambda} \]满足无偏性。
- 方差计算:\(\text{Var}(\widehat{g}) = \mathbb{E}[\widehat{g}^2] - (\mathbb{E}[\widehat{g}])^2\),其中:\[\mathbb{E}[\widehat{g}^2] = \mathbb{E}\left[ \left(1-\frac{1}{n}\right)^{2T} \right] = \exp\left\{ n\lambda\left( \left(1-\frac{1}{n}\right)^2 - 1 \right) \right\} = e^{-2\lambda} e^{\lambda/n} \]因此:\[\text{Var}(\widehat{g}) = e^{-2\lambda}e^{\lambda/n} - e^{-2\lambda} = e^{-2\lambda}\left( e^{\lambda/n} - 1 \right) \]
步骤3:有效性与渐近有效性分析
由泰勒展开\(e^{\lambda/n} - 1 = \frac{\lambda}{n} + \frac{(\lambda/n)^2}{2} + \dots > \frac{\lambda}{n}\),因此\(\text{Var}(\widehat{g}) > \text{CRLB}\),\(\widehat{g}\)不是有效无偏估计。
效率计算:
当\(n \to +\infty\)时,\(\frac{\lambda}{n} \to 0\),\(e^{\lambda/n}-1 \sim \frac{\lambda}{n}\),故\(e(\widehat{g}) \to 1\),因此\(\widehat{g}\)是\(e^{-\lambda}\)的渐近有效无偏估计。
渐近有效性定义(定义5.1.2)
设\(\widehat{g}(X)\)为\(g(\theta)\)的无偏估计,其效率为:
若当\(n \to +\infty\)时,\(e(\widehat{g}) \to 1\),则称\(\widehat{g}(X)\)为渐近有效的无偏估计。
注:效率\(e(\widehat{g}) \leq 1\),越接近1,估计量的渐近性能越好;\(e(\widehat{g})=1\)时为有效估计。
例5.1.3 均匀分布\(R(0,\theta)\)的反例:C-R不等式的适用边界
题目设定
设\(X_1,X_2,\dots,X_n\)独立同分布,\(X_1 \sim R(0,\theta)\)(区间\((0,\theta)\)上的均匀分布),分析C-R不等式的适用性。
核心推导与结论
(1)C-R正则条件不满足
均匀分布\(R(0,\theta)\)的概率密度为:
其支撑集\(\{x:f(x;\theta)>0\}=(0,\theta)\),与参数\(\theta\)直接相关,不满足C-R分布族的核心正则条件(支撑集与参数无关),因此C-R不等式对该分布族不成立。
(2)无偏估计的方差计算
取\(\theta\)的无偏估计为\(\hat{\theta}(X) = \frac{n+1}{n}X_{(n)}\),其中\(X_{(n)}\)为样本的最大值(次序统计量):
- 无偏性验证:\(X_{(n)}\)的概率密度为\(f_n(x) = \frac{n x^{n-1}}{\theta^n}, 0<x<\theta\),因此:\[\mathbb{E}[X_{(n)}] = \int_0^\theta x \cdot \frac{n x^{n-1}}{\theta^n} dx = \frac{n\theta}{n+1} \]故\(\mathbb{E}[\hat{\theta}] = \frac{n+1}{n} \cdot \frac{n\theta}{n+1} = \theta\),满足无偏性。
- 方差计算:\[\mathbb{E}[X_{(n)}^2] = \int_0^\theta x^2 \cdot \frac{n x^{n-1}}{\theta^n} dx = \frac{n\theta^2}{n+2} \]\[\text{Var}(X_{(n)}) = \frac{n\theta^2}{n+2} - \left( \frac{n\theta}{n+1} \right)^2 = \frac{n\theta^2}{(n+2)(n+1)^2} \]因此:\[\text{Var}(\hat{\theta}) = \left( \frac{n+1}{n} \right)^2 \cdot \text{Var}(X_{(n)}) = \frac{\theta^2}{n(n+2)} \]
(3)形式化C-R下界与矛盾
若忽略正则条件,形式化计算Fisher信息:
对数似然函数\(\log f(x;\theta) = -\log\theta\),得分函数\(\frac{\partial \log f}{\partial \theta} = -\frac{1}{\theta}\),形式化的Fisher信息:
形式化的C-R下界为:
此时出现明显矛盾:\(\text{Var}(\hat{\theta}) = \frac{\theta^2}{n(n+2)} < \frac{\theta^2}{n} = \text{“CRLB”}\),即估计量的方差小于形式上的C-R下界。
核心结论
该反例明确了C-R不等式的适用前提:仅对满足C-R正则条件的分布族成立;若分布族不满足正则条件(如支撑集与参数相关),C-R下界无意义,强行套用会出现与理论矛盾的结果。
三道例题核心信息对比表
| 分布类型 | 待估参数/函数 | 无偏估计 | C-R下界 | 估计量方差 | 有效性 | 核心结论 |
|---|---|---|---|---|---|---|
| 正态分布\(N(\mu,\sigma^2)\) | \(\mu\) | \(\bar{X}\) | \(\sigma^2/n\) | \(\sigma^2/n\) | 有效无偏估计 | 样本均值是正态均值的有效估计 |
| 正态分布\(N(\mu,\sigma^2)\) | \(\sigma^2\) | 样本方差\(S^2\) | \(2\sigma^4/n\) | \(2\sigma^4/(n-1)\) | 渐近有效无偏估计 | 样本方差无法达到C-R下界,但大样本下渐近有效 |
| 泊松分布\(P(\lambda)\) | \(\lambda\) | \(\bar{X}\) | \(\lambda/n\) | \(\lambda/n\) | 有效无偏估计 | 样本均值是泊松参数的有效估计 |
| 泊松分布\(P(\lambda)\) | \(e^{-\lambda}\) | \((1-1/n)^{\sum X_i}\) | \(\lambda e^{-2\lambda}/n\) | \(e^{-2\lambda}(e^{\lambda/n}-1)\) | 渐近有效无偏估计 | 非线性待估函数的无偏估计难以达到C-R下界,大样本下渐近有效 |
| 均匀分布\(R(0,\theta)\) | \(\theta\) | \(\frac{n+1}{n}X_{(n)}\) | 形式化\(\theta^2/n\) | \(\theta^2/[n(n+2)]\) | 不适用C-R不等式 | 不满足C-R正则条件,C-R下界无意义,不能套用不等式 |
核心知识点总结
- 有效估计的本质:仅当估计量的方差达到C-R下界时,才是有效无偏估计;指数族分布(正态、泊松、二项等)的线性参数通常存在有效估计,非线性参数通常不存在有限样本下的有效估计。
- 渐近有效性的意义:对于不存在有效估计的参数,可通过渐近有效性衡量大样本下的估计性能,绝大多数常用估计量都具有渐近有效性。
- C-R不等式的边界:必须满足C-R正则条件(核心是支撑集与参数无关),否则C-R不等式不成立,不能直接套用公式计算下界。
posted on 2026-02-24 15:29 Indian_Mysore 阅读(0) 评论(0) 收藏 举报
浙公网安备 33010602011771号