5.3.4最大似然估计的相合性与渐近正态性
最大似然估计的相合性与渐近正态性 完整讲解与推导
一、核心预备知识与基础设定
我们首先明确研究的基本框架,所有结论均基于C-R(Cramer-Rao)正则分布族与独立同分布样本,这是后续大数定律、中心极限定理可应用的前提。
1. 基本定义与记号
设总体\(X_1 \sim f(x_1,\theta)\),其中\(\theta \in \Theta \subset \mathbb{R}^p\)为待估参数,\(f(x,\theta)\)为总体的概率密度(离散情形为分布律);\(X_1,X_2,\dots,X_n\)为来自总体的独立同分布样本。
- 样本联合密度:\(f(x,\theta) = \prod_{i=1}^n f(x_i,\theta)\)
- 单样本对数似然:\(l(\theta,x_1) = \log f(x_1,\theta)\)
- 样本对数似然函数:\[L(\theta) = L(\theta,x) = \log f(x,\theta) = \sum_{i=1}^n l(\theta,x_i) \tag{5.3.13} \]该式是所有渐近性质推导的核心——对数似然可分解为独立同分布随机变量的和,因此可以直接应用大数定律(LLN)和中心极限定理(CLT)。
2. 得分函数与Fisher信息
(1) 得分函数(Score Function)
对数似然关于参数的一阶导数,刻画了似然函数随参数的变化率:
- 单样本得分:\(\dot{l}(\theta,x_1) = \frac{\partial \log f(x_1,\theta)}{\partial \theta}\)
- 样本总得分:\(S(X,\theta) = \dot{L}(\theta) = \sum_{i=1}^n \dot{l}(\theta,X_i)\)
核心性质:得分函数零均值
在C-R正则条件下(求导与积分可交换次序),有:
证明:
样本总得分的期望由独立同分布的可加性直接得0。
(2) Fisher信息(Fisher Information)
刻画了样本中包含的关于参数\(\theta\)的信息量,是参数估计精度的核心度量,有两个等价定义:
- 单样本Fisher信息:\[i(\theta) = \text{Var}_\theta\left[\dot{l}(\theta,X_1)\right] = \mathbb{E}_\theta\left[ -\ddot{l}(\theta,X_1) \right] \]
- 样本总Fisher信息:\[I(\theta) = \text{Var}_\theta\left[\dot{L}(\theta)\right] = \mathbb{E}_\theta\left[ -\ddot{L}(\theta) \right] = n i(\theta) \]
等价性证明:
对\(\mathbb{E}_\theta\left[\dot{l}(\theta,X_1)\right] = 0\)两边关于\(\theta\)再次求导,交换求导与积分次序:
展开被积函数:
积分后移项得:
结合\(\mathbb{E}[\dot{l}]=0\),\(\text{Var}[\dot{l}] = \mathbb{E}[\dot{l}^2]\),最终得:
3. 高阶导数记号
记\(l^{(k)}(\theta,X_1)\)为\(l(\theta,X_1)\)关于\(\theta\)的k阶导数,定义:
由前述结论,显然有:
二、似然函数导数的渐近性质(引理5.3.4)
该引理是连接基础性质与核心定理的桥梁,完整刻画了对数似然各阶导数的大样本行为。
引理设定:\(X=(X_1,\dots,X_n)^T\)服从C-R正则分布族,\(X_1,\dots,X_n\)独立同分布,\(X_1\)的Fisher信息为\(i(\theta)\),则有以下4条核心结论。
(1) 一阶导数的收敛性
详细证明:
由对数似然的可加性,\(n^{-1}\dot{L}(\theta) = \frac{1}{n}\sum_{i=1}^n \dot{l}(\theta,X_i)\)。
\(\dot{l}(\theta,X_i)\)是独立同分布随机序列,且\(\mathbb{E}_\theta\left[\dot{l}(\theta,X_1)\right] = 0\),满足强大数定律(SLLN)的条件,因此:
即\(n^{-1}\dot{L}(\theta) \xrightarrow{\text{a.e.}} 0\)。
而几乎必然收敛可推出依概率收敛,因此\(\frac{\dot{L}(\theta)}{n} \xrightarrow{P} 0\),依概率小o记号的定义即\(\dot{L}(\theta) = o_p(n)\)。
(2) 高阶导数的渐近阶与观察信息的相合性
特别地:
详细证明:
对k阶导数,\(L^{(k)}(\theta) = \sum_{i=1}^n l^{(k)}(\theta,X_i)\),因此\(n^{-1}L^{(k)}(\theta) = \frac{1}{n}\sum_{i=1}^n l^{(k)}(\theta,X_i)\)。
在正则条件下,\(\mathbb{E}_\theta\left[l^{(k)}(\theta,X_1)\right] = a_k(\theta)\)存在有限,由强大数定律:
几乎必然收敛推出依概率收敛,依概率收敛到常数的序列是依概率有界的(\(O_p(1)\)),因此\(n^{-1}L^{(k)}(\theta) = O_p(1)\),即\(L^{(k)}(\theta) = O_p(n)\)。
特殊情形证明:
当k=2时,\(-\frac{1}{n}\ddot{L}(\theta) = \frac{1}{n}\sum_{i=1}^n \left[ -\ddot{l}(\theta,X_i) \right]\),而\(\mathbb{E}_\theta\left[ -\ddot{l}(\theta,X_1) \right] = i(\theta)\),再次应用强大数定律:
对\([-\ddot{L}(\theta)]^{-1} = O_p(n^{-1})\),由上式得\(\frac{-\ddot{L}(\theta)}{n} \xrightarrow{P} i(\theta)\),正则条件下\(i(\theta) > 0\),因此\(\frac{n}{-\ddot{L}(\theta)} \xrightarrow{P} i(\theta)^{-1}\),即\(\frac{n}{-\ddot{L}(\theta)} = O_p(1)\),两边乘\(n^{-1}\)得\([-\ddot{L}(\theta)]^{-1} = O_p(n^{-1})\)。
(3) 得分函数的渐近正态性
详细证明:
\(\frac{1}{\sqrt{n}}\dot{L}(\theta) = \sqrt{n} \cdot \left( \frac{1}{n}\sum_{i=1}^n \dot{l}(\theta,X_i) \right)\),其中:
- \(\dot{l}(\theta,X_i)\)独立同分布;
- \(\mathbb{E}[\dot{l}(\theta,X_1)] = 0\);
- \(\text{Var}[\dot{l}(\theta,X_1)] = i(\theta) < +\infty\)。
完全满足林德伯格-莱维中心极限定理(独立同分布CLT)的条件,因此:
代入零均值和方差,直接得:
依分布收敛到随机变量的序列必为依概率有界,因此\(\frac{\dot{L}(\theta)}{\sqrt{n}} = O_p(1)\),即\(\dot{L}(\theta) = O_p(n^{1/2})\)。
(4) 观察信息与Fisher信息的渐近关系
详细证明:
样本总Fisher信息\(I(\theta) = n i(\theta) = n \cdot \mathbb{E}\left[ -\ddot{l}(\theta,X_1) \right]\),因此:
\(-\ddot{l}(\theta,X_i)\)独立同分布,期望为\(i(\theta)\),方差为\(\nu_2(\theta) = \text{Var}\left[ l^{(2)}(\theta,X_1) \right]\),满足CLT条件,因此:
由上式,\(\frac{-\ddot{L}(\theta) - I(\theta)}{\sqrt{n}} = O_p(1)\),因此\(-\ddot{L}(\theta) - I(\theta) = O_p(n^{1/2})\),即\(-\ddot{L}(\theta) = I(\theta) + O_p(n^{1/2})\)。
对逆矩阵的渐近展开,记\(A = -\ddot{L}(\theta)\),\(B = I(\theta)\),则\(A = B + O_p(n^{1/2})\),对\(A^{-1}\)做泰勒展开:
代入\(B^{-1} = O(n^{-1})\),\(A-B = O_p(n^{1/2})\),得\(B^{-1}(A-B)B^{-1} = O_p(n^{-3/2})\),因此:
三、最大似然估计的强相合性(定理5.3.5)
定理内容
设\(X=(X_1,\dots,X_n)^T\)服从C-R正则分布族,\(X_1,\dots,X_n\)独立同分布,参数空间\(\Theta\)为\(\mathbb{R}^p\)上的开集。则似然方程\(\dot{L}(\theta)=0\)在\(n \to +\infty\)时必有解\(\hat{\theta}_n(X) = \hat{\theta}(X_1,\dots,X_n)\),且对真参数\(\theta_0 \in \Theta\)满足强相合性:
详细证明
证明核心思路:证明n充分大时,对数似然\(L(\theta)\)在\(\theta_0\)的任意小邻域内取得最大值,因此最大值点(似然方程的解)必然收敛到\(\theta_0\)。
步骤1:构造\(\theta_0\)的邻域序列
任取真参数\(\theta_0 \in \Theta\),因\(\Theta\)是开集,存在一列闭邻域:
且所有\(U_m \subset \Theta\)。我们只需证明:对任意m,n充分大时,\(L(\theta)\)在\(U_m\)上的最大值不可能在边界\(\partial U_m = \{\theta': \|\theta' - \theta_0\| = \delta_m\}\)上达到。
步骤2:应用Kullback-Leibler信息不等式
K-L信息不等式:对两个不同的分布\(f\)和\(g\),有\(\mathbb{E}_f\left[ \log f(X) \right] > \mathbb{E}_f\left[ \log g(X) \right]\),等号当且仅当\(f=g\)几乎处处成立。
取真分布\(f = f(x,\theta_0)\),任意非真分布\(g = f(x,\theta')\)(\(\theta' \neq \theta_0\)),直接得:
步骤3:对边界点应用强大数定律
对边界\(\partial U_m\)上的任意\(\theta'\),由强大数定律:
结合K-L不等式,存在正整数\(N_m\)和零测集\(A_{n,m}\)(\(P_{\theta_0}(A_{n,m})=0\)),当\(n > N_m\)时,对所有\(x \notin A_{n,m}\),有:
即\(L(\theta_0) > L(\theta')\),边界上的似然值均小于\(\theta_0\)处的似然值。
步骤4:证明最大值点在邻域内部
上述结论说明:n充分大时,\(L(\theta)\)在\(U_m\)上的最大值只能在内部取得。而\(L(\theta)\)在\(\Theta\)上可导,内部的最大值点\(\hat{\theta}_n(x)\)必满足似然方程\(\dot{L}(\hat{\theta}_n(x)) = 0\),且\(\|\hat{\theta}_n(x) - \theta_0\| < \delta_m\)。
步骤5:强相合性收尾
令\(m \to \infty\),则\(\delta_m \to 0\),记零测集\(A = \bigcup_{m=1}^\infty \bigcup_{n=N_m}^\infty A_{n,m}\)(可数个零测集的并仍为零测集,\(P_{\theta_0}(A)=0\))。
对所有\(x \notin A\),任取\(\varepsilon > 0\),存在m使得\(\delta_m < \varepsilon\),当\(n > N_m\)时,\(\|\hat{\theta}_n(x) - \theta_0\| < \delta_m < \varepsilon\),即\(\lim_{n \to \infty} \hat{\theta}_n(x) = \theta_0\)。
因此:
强相合性得证。
补充说明
该定理证明了似然方程必有强相合解;若似然函数单峰(如指数族分布),似然方程解唯一,则该唯一解就是MLE,且必为强相合。
四、最大似然估计的渐近正态性(定理5.3.6)
定理内容
设\(X=(X_1,\dots,X_n)^T\)服从C-R正则分布族,\(X_1,\dots,X_n\)独立同分布,\(\Theta\)为\(\mathbb{R}^p\)上的开集。假定似然方程\(\dot{L}(\theta)=0\)在\(n \to \infty\)时有相合解\(\hat{\theta}_n\),且\(L^{(3)}(\theta)\)在\(\Theta\)中存在且连续,则\(\hat{\theta}_n\)为\(\theta\)的BAN估计(最优渐近正态估计),且满足:
详细证明
我们仅证明一维参数情形(p=1),多维矩阵形式的证明完全类似。
步骤1:似然方程的泰勒展开
\(\hat{\theta}_n\)是似然方程的解,故\(\dot{L}(\hat{\theta}_n) = 0\)。将\(\dot{L}(\theta)\)在真参数\(\theta_0\)处做二阶泰勒展开:
其中\(\xi\)介于\(\hat{\theta}_n\)和\(\theta_0\)之间,记\(\Delta \theta = \hat{\theta}_n - \theta_0\),化简得:
步骤2:整理出\(\sqrt{n}\Delta \theta\)的表达式
两边除以\(\sqrt{n}\),变形为:
解出\(\sqrt{n}\Delta \theta\):
步骤3:分别分析\(\eta_n\)和\(\alpha_n\)的渐近行为
-
\(\eta_n\)的依概率收敛
- 由引理5.3.4,\(-\frac{1}{n}\ddot{L}(\theta_0) \xrightarrow{P} i(\theta_0)\);
- 由\(\hat{\theta}_n\)的相合性,\(\Delta \theta = \hat{\theta}_n - \theta_0 \xrightarrow{P} 0\);
- 由引理5.3.4,\(n^{-1}L^{(3)}(\xi) = O_p(1)\)(三阶导数的样本均值依概率有界);
- 因此\(\frac{1}{2} \Delta \theta \cdot \frac{1}{n} L^{(3)}(\xi) = o_p(1) \cdot O_p(1) = o_p(1)\),依概率收敛到0。
综上,括号内的部分依概率收敛到\(i(\theta_0)\),由连续映射定理:
\[\eta_n \xrightarrow{P} i(\theta_0)^{-1} \] -
\(\alpha_n\)的依分布收敛
由引理5.3.4的得分函数渐近正态性,直接得:\[\alpha_n = \frac{1}{\sqrt{n}}\dot{L}(\theta_0) \xrightarrow{L} \alpha \sim N(0,i(\theta_0)) \]
步骤4:应用Slutsky定理得最终结论
Slutsky定理:若\(X_n \xrightarrow{L} X\),\(Y_n \xrightarrow{P} c\)(c为常数),则\(Y_n X_n \xrightarrow{L} c X\)。
代入\(\eta_n \xrightarrow{P} i(\theta_0)^{-1}\),\(\alpha_n \xrightarrow{L} N(0,i(\theta_0))\),得:
正态分布的线性变换仍为正态分布,计算得:
- 期望:\(\mathbb{E}\left[ i(\theta_0)^{-1} \alpha \right] = 0\)
- 方差:\(\text{Var}\left( i(\theta_0)^{-1} \alpha \right) = i(\theta_0)^{-1} \cdot i(\theta_0) \cdot i(\theta_0)^{-1} = i(\theta_0)^{-1}\)
因此:
渐近正态性得证。
补充说明
BAN估计即最优渐近正态估计,指渐近方差达到C-R下界的渐近正态估计。MLE的渐近方差为\(i^{-1}(\theta_0)/n\),恰好是无偏估计的C-R方差下界,因此MLE是大样本下的最优估计。
五、渐近正态性的核心推论
推论1
对任意\(\theta \in \Theta\),有:
且\(\text{Var}_\theta[\sqrt{n}\hat{\theta}_n(X)] \to i^{-1}(\theta)\)。
解读:定理中\(\theta_0\)是任意真参数,因此结论对所有\(\theta \in \Theta\)成立;依分布收敛推出依概率有界,且渐近方差收敛到正态分布的方差。
推论2
设\(I(\theta)\)为样本Fisher信息矩阵,则:
- 标准化渐近正态:\(I^{\frac{1}{2}}(\theta)(\hat{\theta}_n - \theta) \xrightarrow{L} N(0,I_p)\);\(I^{\frac{1}{2}}(\hat{\theta}_n)(\hat{\theta}_n - \theta) \xrightarrow{L} N(0,I_p)\)
- 二次型渐近卡方:\((\hat{\theta}_n - \theta)^T I(\theta)(\hat{\theta}_n - \theta) \xrightarrow{L} \chi^2(p)\);\((\hat{\theta}_n - \theta)^T I(\hat{\theta}_n)(\hat{\theta}_n - \theta) \xrightarrow{L} \chi^2(p)\)
证明核心:
- 由\(I(\theta) = n i(\theta)\),\(I^{\frac{1}{2}}(\theta) = \sqrt{n} i^{\frac{1}{2}}(\theta)\),左乘渐近正态式即得标准正态分布;
- 标准正态向量的二次型服从卡方分布,结合Slutsky定理(\(\hat{\theta}_n \xrightarrow{P} \theta\)),得含\(\hat{\theta}_n\)的结论。
意义:该推论是参数区间估计、Wald假设检验的核心理论基础。
推论3
单参数特例:
证明核心:由推论1,\(n \text{Var}_\theta(\hat{\theta}_n) \to i^{-1}(\theta)\),因此\(\{\text{Var}_\theta(\hat{\theta}_n)\}^{-\frac{1}{2}} = \sqrt{n} \cdot \{n \text{Var}_\theta(\hat{\theta}_n)\}^{-\frac{1}{2}} \xrightarrow{P} \sqrt{n} i^{\frac{1}{2}}(\theta)\),结合Slutsky定理即得结论。
意义:该推论给出了实际应用中最常用的Z检验统计量的理论依据。
六、知识点完整归纳总结
| 模块 | 核心结论/定理 | 核心表达式 | 关键条件 | 核心意义 |
|---|---|---|---|---|
| 预备知识 | 对数似然可加性 | \(L(\theta) = \sum_{i=1}^n l(\theta,X_i)\) | 样本独立同分布 | 将似然转化为独立和,为大数定律/CLT应用奠定基础 |
| 得分函数零均值 | \(\mathbb{E}_\theta[\dot{l}(\theta,X_1)] = 0\),\(\mathbb{E}_\theta[\dot{L}(\theta)] = 0\) | C-R正则条件(求导与积分可交换) | 得分函数满足CLT的核心前提 | |
| Fisher信息等价定义 | \(i(\theta) = \text{Var}_\theta[\dot{l}] = \mathbb{E}_\theta[-\ddot{l}]\),\(I(\theta)=ni(\theta)\) | C-R正则条件 | 刻画参数信息含量,是C-R下界与渐近方差的核心 | |
| 引理5.3.4(似然导数渐近行为) | 一阶导数收敛性 | \(n^{-1}\dot{L}(\theta) \xrightarrow{\text{a.e.}} 0\),\(\dot{L}(\theta)=o_p(n)\) | 独立同分布、\(\mathbb{E}[\dot{l}]\)存在 | 刻画得分函数的渐近阶 |
| 高阶导数渐近阶 | \(n^{-1}L^{(k)}(\theta) \xrightarrow{\text{a.e.}} a_k(\theta)\),\(L^{(k)}(\theta)=O_p(n)\) | 独立同分布、\(\mathbb{E}[l^{(k)}]\)存在 | 刻画高阶导数的渐近行为 | |
| 观察信息相合性 | \(-\frac{1}{n}\ddot{L}(\theta) \xrightarrow{\text{a.e.}} i(\theta)\) | 独立同分布、Fisher信息存在 | 样本观察信息收敛到总体Fisher信息 | |
| 得分函数渐近正态性 | \(\frac{1}{\sqrt{n}}\dot{L}(\theta) \xrightarrow{L} N(0,i(\theta))\) | 独立同分布、\(\text{Var}[\dot{l}]\)有限 | MLE渐近正态性的核心基础 | |
| 观察信息与Fisher信息的渐近关系 | \(-\ddot{L}(\theta) = I(\theta) + O_p(n^{1/2})\),\([-\ddot{L}(\theta)]^{-1} = I^{-1}(\theta) + O_p(n^{-3/2})\) | 独立同分布、\(\text{Var}[\ddot{l}]\)有限 | 为MLE渐近方差计算提供依据 | |
| 核心定理1:强相合性 | 似然方程必有强相合解 | \(P_{\theta_0}\left( \lim_{n \to \infty} \hat{\theta}_n = \theta_0 \right) = 1\) | C-R正则族、\(\Theta\)是开集、独立同分布样本 | 大样本下MLE几乎必然收敛到真实参数,保证估计的一致性 |
| 核心定理2:渐近正态性 | MLE的渐近正态分布 | \(\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{L} N(0,i^{-1}(\theta_0))\) | C-R正则族、似然方程有相合解、\(L^{(3)}(\theta)\)连续 | 大样本下MLE服从正态分布,渐近方差达到C-R下界,是BAN估计 |
| 应用层推论 | 标准化MLE的渐近标准正态 | \(I^{1/2}(\theta)(\hat{\theta}_n - \theta) \xrightarrow{L} N(0,I_p)\),\(\frac{\hat{\theta}_n - \theta}{\sqrt{\text{Var}(\hat{\theta}_n)}} \xrightarrow{L} N(0,1)\) | 满足渐近正态性条件 | 用于构造参数置信区间、Z检验 |
| MLE二次型的渐近卡方分布 | \((\hat{\theta}_n - \theta)^T I(\theta)(\hat{\theta}_n - \theta) \xrightarrow{L} \chi^2(p)\) | 满足渐近正态性条件 | 用于构造Wald检验统计量、多参数联合检验 |
posted on 2026-02-25 08:53 Indian_Mysore 阅读(0) 评论(0) 收藏 举报
浙公网安备 33010602011771号