夫君子之行，静以修身，俭以养德；非澹泊无以明志，非宁静无以致远。夫学须静也，才须学也；非学无以广才，非志无以成学。怠慢则不能励精，险躁则不能冶性。年与时驰，意与岁去，遂成枯落，多不接世。悲守穷庐，将复何及！

5.3.4最大似然估计的相合性与渐近正态性

最大似然估计的相合性与渐近正态性完整讲解与推导

一、核心预备知识与基础设定

我们首先明确研究的基本框架，所有结论均基于C-R（Cramer-Rao）正则分布族与独立同分布样本，这是后续大数定律、中心极限定理可应用的前提。

1. 基本定义与记号

设总体\(X_1 \sim f(x_1,\theta)\)，其中\(\theta \in \Theta \subset \mathbb{R}^p\)为待估参数，\(f(x,\theta)\)为总体的概率密度（离散情形为分布律）；\(X_1,X_2,\dots,X_n\)为来自总体的独立同分布样本。

样本联合密度：\(f(x,\theta) = \prod_{i=1}^n f(x_i,\theta)\)
单样本对数似然：\(l(\theta,x_1) = \log f(x_1,\theta)\)
样本对数似然函数：
\[L(\theta) = L(\theta,x) = \log f(x,\theta) = \sum_{i=1}^n l(\theta,x_i) \tag{5.3.13} \]
该式是所有渐近性质推导的核心——对数似然可分解为独立同分布随机变量的和，因此可以直接应用大数定律（LLN）和中心极限定理（CLT）。

2. 得分函数与Fisher信息

(1) 得分函数（Score Function）

对数似然关于参数的一阶导数，刻画了似然函数随参数的变化率：

单样本得分：\(\dot{l}(\theta,x_1) = \frac{\partial \log f(x_1,\theta)}{\partial \theta}\)
样本总得分：\(S(X,\theta) = \dot{L}(\theta) = \sum_{i=1}^n \dot{l}(\theta,X_i)\)

核心性质：得分函数零均值
在C-R正则条件下（求导与积分可交换次序），有：

\[\mathbb{E}_\theta\left[\dot{l}(\theta,X_1)\right] = 0, \quad \mathbb{E}_\theta\left[\dot{L}(\theta)\right] = 0 \]

证明：

\[\begin{align*} \mathbb{E}_\theta\left[\dot{l}(\theta,X_1)\right] &= \int_{\mathcal{X}} \frac{\partial \log f(x_1,\theta)}{\partial \theta} f(x_1,\theta) dx_1 \\ &= \int_{\mathcal{X}} \frac{\partial f(x_1,\theta)}{\partial \theta} dx_1 = \frac{\partial}{\partial \theta} \int_{\mathcal{X}} f(x_1,\theta) dx_1 = \frac{\partial}{\partial \theta}1 = 0 \end{align*} \]

样本总得分的期望由独立同分布的可加性直接得0。

(2) Fisher信息（Fisher Information）

刻画了样本中包含的关于参数\(\theta\)的信息量，是参数估计精度的核心度量，有两个等价定义：

单样本Fisher信息：
\[i(\theta) = \text{Var}_\theta\left[\dot{l}(\theta,X_1)\right] = \mathbb{E}_\theta\left[ -\ddot{l}(\theta,X_1) \right] \]
样本总Fisher信息：
\[I(\theta) = \text{Var}_\theta\left[\dot{L}(\theta)\right] = \mathbb{E}_\theta\left[ -\ddot{L}(\theta) \right] = n i(\theta) \]

等价性证明：
对\(\mathbb{E}_\theta\left[\dot{l}(\theta,X_1)\right] = 0\)两边关于\(\theta\)再次求导，交换求导与积分次序：

\[\int_{\mathcal{X}} \frac{\partial}{\partial \theta}\left( \dot{l}(\theta,x) f(x,\theta) \right) dx = 0 \]

展开被积函数：

\[\ddot{l}(\theta,x) f(x,\theta) + \dot{l}(\theta,x) \cdot \dot{l}(\theta,x) f(x,\theta) \]

积分后移项得：

\[\mathbb{E}_\theta\left[\ddot{l}(\theta,X_1)\right] + \mathbb{E}_\theta\left[\dot{l}(\theta,X_1)^2\right] = 0 \]

结合\(\mathbb{E}[\dot{l}]=0\)，\(\text{Var}[\dot{l}] = \mathbb{E}[\dot{l}^2]\)，最终得：

\[i(\theta) = \mathbb{E}_\theta\left[ -\ddot{l}(\theta,X_1) \right] \]

3. 高阶导数记号

记\(l^{(k)}(\theta,X_1)\)为\(l(\theta,X_1)\)关于\(\theta\)的k阶导数，定义：

\[\mathbb{E}_\theta\left[l^{(k)}(\theta,X_1)\right] = a_k(\theta), \quad \text{Var}_\theta\left[l^{(k)}(\theta,X_1)\right] = \nu_k(\theta) \]

由前述结论，显然有：

\[a_1(\theta) = 0, \quad \nu_1(\theta) = i(\theta) = -a_2(\theta) \]

二、似然函数导数的渐近性质（引理5.3.4）

该引理是连接基础性质与核心定理的桥梁，完整刻画了对数似然各阶导数的大样本行为。

引理设定：\(X=(X_1,\dots,X_n)^T\)服从C-R正则分布族，\(X_1,\dots,X_n\)独立同分布，\(X_1\)的Fisher信息为\(i(\theta)\)，则有以下4条核心结论。

(1) 一阶导数的收敛性

\[n^{-1}\dot{L}(\theta) \to 0 \ (\text{a.e.}), \quad \dot{L}(\theta) = o_p(n) \]

详细证明：
由对数似然的可加性，\(n^{-1}\dot{L}(\theta) = \frac{1}{n}\sum_{i=1}^n \dot{l}(\theta,X_i)\)。
\(\dot{l}(\theta,X_i)\)是独立同分布随机序列，且\(\mathbb{E}_\theta\left[\dot{l}(\theta,X_1)\right] = 0\)，满足强大数定律（SLLN）的条件，因此：

\[\frac{1}{n}\sum_{i=1}^n \dot{l}(\theta,X_i) \xrightarrow{\text{a.e.}} \mathbb{E}_\theta\left[\dot{l}(\theta,X_1)\right] = 0 \]

即\(n^{-1}\dot{L}(\theta) \xrightarrow{\text{a.e.}} 0\)。

而几乎必然收敛可推出依概率收敛，因此\(\frac{\dot{L}(\theta)}{n} \xrightarrow{P} 0\)，依概率小o记号的定义即\(\dot{L}(\theta) = o_p(n)\)。

(2) 高阶导数的渐近阶与观察信息的相合性

\[n^{-1}L^{(k)}(\theta) = O_p(1), \quad L^{(k)}(\theta) = O_p(n), \ k=2,3,\dots \]

特别地：

\[-\frac{1}{n}\ddot{L}(\theta) \to i(\theta) \ (\text{a.e.}), \quad [-\ddot{L}(\theta)]^{-1} = O_p(n^{-1}) \]

详细证明：
对k阶导数，\(L^{(k)}(\theta) = \sum_{i=1}^n l^{(k)}(\theta,X_i)\)，因此\(n^{-1}L^{(k)}(\theta) = \frac{1}{n}\sum_{i=1}^n l^{(k)}(\theta,X_i)\)。
在正则条件下，\(\mathbb{E}_\theta\left[l^{(k)}(\theta,X_1)\right] = a_k(\theta)\)存在有限，由强大数定律：

\[\frac{1}{n}\sum_{i=1}^n l^{(k)}(\theta,X_i) \xrightarrow{\text{a.e.}} a_k(\theta) \]

几乎必然收敛推出依概率收敛，依概率收敛到常数的序列是依概率有界的（\(O_p(1)\)），因此\(n^{-1}L^{(k)}(\theta) = O_p(1)\)，即\(L^{(k)}(\theta) = O_p(n)\)。

特殊情形证明：
当k=2时，\(-\frac{1}{n}\ddot{L}(\theta) = \frac{1}{n}\sum_{i=1}^n \left[ -\ddot{l}(\theta,X_i) \right]\)，而\(\mathbb{E}_\theta\left[ -\ddot{l}(\theta,X_1) \right] = i(\theta)\)，再次应用强大数定律：

\[-\frac{1}{n}\ddot{L}(\theta) \xrightarrow{\text{a.e.}} i(\theta) \]

对\([-\ddot{L}(\theta)]^{-1} = O_p(n^{-1})\)，由上式得\(\frac{-\ddot{L}(\theta)}{n} \xrightarrow{P} i(\theta)\)，正则条件下\(i(\theta) > 0\)，因此\(\frac{n}{-\ddot{L}(\theta)} \xrightarrow{P} i(\theta)^{-1}\)，即\(\frac{n}{-\ddot{L}(\theta)} = O_p(1)\)，两边乘\(n^{-1}\)得\([-\ddot{L}(\theta)]^{-1} = O_p(n^{-1})\)。

(3) 得分函数的渐近正态性

\[\frac{1}{\sqrt{n}}\dot{L}(\theta) \xrightarrow{L} N(0,i(\theta)), \quad \dot{L}(\theta) = O_p(n^{1/2}) \]

详细证明：
\(\frac{1}{\sqrt{n}}\dot{L}(\theta) = \sqrt{n} \cdot \left( \frac{1}{n}\sum_{i=1}^n \dot{l}(\theta,X_i) \right)\)，其中：

\(\dot{l}(\theta,X_i)\)独立同分布；
\(\mathbb{E}[\dot{l}(\theta,X_1)] = 0\)；
\(\text{Var}[\dot{l}(\theta,X_1)] = i(\theta) < +\infty\)。

完全满足林德伯格-莱维中心极限定理（独立同分布CLT）的条件，因此：

\[\sqrt{n} \left( \frac{1}{n}\sum_{i=1}^n \dot{l}(\theta,X_i) - \mathbb{E}[\dot{l}] \right) \xrightarrow{L} N\left(0, \text{Var}[\dot{l}]\right) \]

代入零均值和方差，直接得：

\[\frac{1}{\sqrt{n}}\dot{L}(\theta) \xrightarrow{L} N(0,i(\theta)) \]

依分布收敛到随机变量的序列必为依概率有界，因此\(\frac{\dot{L}(\theta)}{\sqrt{n}} = O_p(1)\)，即\(\dot{L}(\theta) = O_p(n^{1/2})\)。

(4) 观察信息与Fisher信息的渐近关系

\[\frac{1}{\sqrt{n}}\left[ -\ddot{L}(\theta) - I(\theta) \right] \xrightarrow{L} N(0,\nu_2(\theta)), \quad -\ddot{L}(\theta) = I(\theta) + O_p(n^{1/2}) \]

\[[-\ddot{L}(\theta)]^{-1} = I^{-1}(\theta) + O_p(n^{-3/2}) \]

详细证明：
样本总Fisher信息\(I(\theta) = n i(\theta) = n \cdot \mathbb{E}\left[ -\ddot{l}(\theta,X_1) \right]\)，因此：

\[\frac{1}{\sqrt{n}}\left[ -\ddot{L}(\theta) - I(\theta) \right] = \sqrt{n} \left( \frac{1}{n}\sum_{i=1}^n \left[ -\ddot{l}(\theta,X_i) \right] - \mathbb{E}\left[ -\ddot{l}(\theta,X_1) \right] \right) \]

\(-\ddot{l}(\theta,X_i)\)独立同分布，期望为\(i(\theta)\)，方差为\(\nu_2(\theta) = \text{Var}\left[ l^{(2)}(\theta,X_1) \right]\)，满足CLT条件，因此：

\[\frac{1}{\sqrt{n}}\left[ -\ddot{L}(\theta) - I(\theta) \right] \xrightarrow{L} N(0,\nu_2(\theta)) \]

由上式，\(\frac{-\ddot{L}(\theta) - I(\theta)}{\sqrt{n}} = O_p(1)\)，因此\(-\ddot{L}(\theta) - I(\theta) = O_p(n^{1/2})\)，即\(-\ddot{L}(\theta) = I(\theta) + O_p(n^{1/2})\)。

对逆矩阵的渐近展开，记\(A = -\ddot{L}(\theta)\)，\(B = I(\theta)\)，则\(A = B + O_p(n^{1/2})\)，对\(A^{-1}\)做泰勒展开：

\[(B + (A-B))^{-1} = B^{-1} - B^{-1}(A-B)B^{-1} + o_p\left( \|B^{-1}(A-B)B^{-1}\| \right) \]

代入\(B^{-1} = O(n^{-1})\)，\(A-B = O_p(n^{1/2})\)，得\(B^{-1}(A-B)B^{-1} = O_p(n^{-3/2})\)，因此：

\[[-\ddot{L}(\theta)]^{-1} = I^{-1}(\theta) + O_p(n^{-3/2}) \]

三、最大似然估计的强相合性（定理5.3.5）

定理内容

设\(X=(X_1,\dots,X_n)^T\)服从C-R正则分布族，\(X_1,\dots,X_n\)独立同分布，参数空间\(\Theta\)为\(\mathbb{R}^p\)上的开集。则似然方程\(\dot{L}(\theta)=0\)在\(n \to +\infty\)时必有解\(\hat{\theta}_n(X) = \hat{\theta}(X_1,\dots,X_n)\)，且对真参数\(\theta_0 \in \Theta\)满足强相合性：

\[P_{\theta_0}\left\{ X: \lim_{n \to \infty} \hat{\theta}_n(X) = \theta_0 \right\} = 1, \quad \theta_0 \in \Theta \]

详细证明

证明核心思路：证明n充分大时，对数似然\(L(\theta)\)在\(\theta_0\)的任意小邻域内取得最大值，因此最大值点（似然方程的解）必然收敛到\(\theta_0\)。

步骤1：构造\(\theta_0\)的邻域序列

任取真参数\(\theta_0 \in \Theta\)，因\(\Theta\)是开集，存在一列闭邻域：

\[U_m = \left\{ \theta' : \|\theta' - \theta_0\| \leq \delta_m \right\}, \quad \delta_m > 0, \ \delta_m \to 0 \ (m \to \infty) \]

且所有\(U_m \subset \Theta\)。我们只需证明：对任意m，n充分大时，\(L(\theta)\)在\(U_m\)上的最大值不可能在边界\(\partial U_m = \{\theta': \|\theta' - \theta_0\| = \delta_m\}\)上达到。

步骤2：应用Kullback-Leibler信息不等式

K-L信息不等式：对两个不同的分布\(f\)和\(g\)，有\(\mathbb{E}_f\left[ \log f(X) \right] > \mathbb{E}_f\left[ \log g(X) \right]\)，等号当且仅当\(f=g\)几乎处处成立。

取真分布\(f = f(x,\theta_0)\)，任意非真分布\(g = f(x,\theta')\)（\(\theta' \neq \theta_0\)），直接得：

\[\mathbb{E}_{\theta_0}\left[ \log f(X_1,\theta_0) \right] > \mathbb{E}_{\theta_0}\left[ \log f(X_1,\theta') \right], \quad \forall \theta' \neq \theta_0 \tag{5.3.20} \]

步骤3：对边界点应用强大数定律

对边界\(\partial U_m\)上的任意\(\theta'\)，由强大数定律：

\[\frac{1}{n}L(\theta_0) = \frac{1}{n}\sum_{i=1}^n \log f(X_i,\theta_0) \xrightarrow{\text{a.e.}} \mathbb{E}_{\theta_0}\left[ \log f(X_1,\theta_0) \right] \]

\[\frac{1}{n}L(\theta') = \frac{1}{n}\sum_{i=1}^n \log f(X_i,\theta') \xrightarrow{\text{a.e.}} \mathbb{E}_{\theta_0}\left[ \log f(X_1,\theta') \right] \]

结合K-L不等式，存在正整数\(N_m\)和零测集\(A_{n,m}\)（\(P_{\theta_0}(A_{n,m})=0\)），当\(n > N_m\)时，对所有\(x \notin A_{n,m}\)，有：

\[\frac{1}{n}L(\theta_0) > \frac{1}{n}L(\theta'), \quad \forall \theta' \in \partial U_m \]

即\(L(\theta_0) > L(\theta')\)，边界上的似然值均小于\(\theta_0\)处的似然值。

步骤4：证明最大值点在邻域内部

上述结论说明：n充分大时，\(L(\theta)\)在\(U_m\)上的最大值只能在内部取得。而\(L(\theta)\)在\(\Theta\)上可导，内部的最大值点\(\hat{\theta}_n(x)\)必满足似然方程\(\dot{L}(\hat{\theta}_n(x)) = 0\)，且\(\|\hat{\theta}_n(x) - \theta_0\| < \delta_m\)。

步骤5：强相合性收尾

令\(m \to \infty\)，则\(\delta_m \to 0\)，记零测集\(A = \bigcup_{m=1}^\infty \bigcup_{n=N_m}^\infty A_{n,m}\)（可数个零测集的并仍为零测集，\(P_{\theta_0}(A)=0\)）。

对所有\(x \notin A\)，任取\(\varepsilon > 0\)，存在m使得\(\delta_m < \varepsilon\)，当\(n > N_m\)时，\(\|\hat{\theta}_n(x) - \theta_0\| < \delta_m < \varepsilon\)，即\(\lim_{n \to \infty} \hat{\theta}_n(x) = \theta_0\)。

因此：

\[P_{\theta_0}\left\{ X: \lim_{n \to \infty} \hat{\theta}_n(X) = \theta_0 \right\} = 1 \]

强相合性得证。

补充说明

该定理证明了似然方程必有强相合解；若似然函数单峰（如指数族分布），似然方程解唯一，则该唯一解就是MLE，且必为强相合。

四、最大似然估计的渐近正态性（定理5.3.6）

定理内容

设\(X=(X_1,\dots,X_n)^T\)服从C-R正则分布族，\(X_1,\dots,X_n\)独立同分布，\(\Theta\)为\(\mathbb{R}^p\)上的开集。假定似然方程\(\dot{L}(\theta)=0\)在\(n \to \infty\)时有相合解\(\hat{\theta}_n\)，且\(L^{(3)}(\theta)\)在\(\Theta\)中存在且连续，则\(\hat{\theta}_n\)为\(\theta\)的BAN估计（最优渐近正态估计），且满足：

\[\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{L} N(0,i^{-1}(\theta_0)) \]

详细证明

我们仅证明一维参数情形（p=1），多维矩阵形式的证明完全类似。

步骤1：似然方程的泰勒展开

\(\hat{\theta}_n\)是似然方程的解，故\(\dot{L}(\hat{\theta}_n) = 0\)。将\(\dot{L}(\theta)\)在真参数\(\theta_0\)处做二阶泰勒展开：

\[\dot{L}(\hat{\theta}_n) = \dot{L}(\theta_0) + \ddot{L}(\theta_0)(\hat{\theta}_n - \theta_0) + \frac{1}{2} L^{(3)}(\xi) (\hat{\theta}_n - \theta_0)^2 = 0 \]

其中\(\xi\)介于\(\hat{\theta}_n\)和\(\theta_0\)之间，记\(\Delta \theta = \hat{\theta}_n - \theta_0\)，化简得：

\[\dot{L}(\theta_0) = \left[ -\ddot{L}(\theta_0) - \frac{1}{2} \Delta \theta \cdot L^{(3)}(\xi) \right] \cdot \Delta \theta \]

步骤2：整理出\(\sqrt{n}\Delta \theta\)的表达式

两边除以\(\sqrt{n}\)，变形为：

\[\frac{1}{\sqrt{n}}\dot{L}(\theta_0) = \left[ -\frac{1}{n}\ddot{L}(\theta_0) - \frac{1}{2} \Delta \theta \cdot \frac{1}{n} L^{(3)}(\xi) \right] \cdot \sqrt{n} \Delta \theta \]

解出\(\sqrt{n}\Delta \theta\)：

\[\sqrt{n}\Delta \theta = \underbrace{\left[ -\frac{1}{n}\ddot{L}(\theta_0) - \frac{1}{2} \Delta \theta \cdot \frac{1}{n} L^{(3)}(\xi) \right]^{-1}}_{\eta_n} \cdot \underbrace{\frac{1}{\sqrt{n}}\dot{L}(\theta_0)}_{\alpha_n} \]

步骤3：分别分析\(\eta_n\)和\(\alpha_n\)的渐近行为

\(\eta_n\)的依概率收敛
- 由引理5.3.4，\(-\frac{1}{n}\ddot{L}(\theta_0) \xrightarrow{P} i(\theta_0)\)；
- 由\(\hat{\theta}_n\)的相合性，\(\Delta \theta = \hat{\theta}_n - \theta_0 \xrightarrow{P} 0\)；
- 由引理5.3.4，\(n^{-1}L^{(3)}(\xi) = O_p(1)\)（三阶导数的样本均值依概率有界）；
- 因此\(\frac{1}{2} \Delta \theta \cdot \frac{1}{n} L^{(3)}(\xi) = o_p(1) \cdot O_p(1) = o_p(1)\)，依概率收敛到0。
综上，括号内的部分依概率收敛到\(i(\theta_0)\)，由连续映射定理：

\[\eta_n \xrightarrow{P} i(\theta_0)^{-1} \]
\(\alpha_n\)的依分布收敛
由引理5.3.4的得分函数渐近正态性，直接得：

\[\alpha_n = \frac{1}{\sqrt{n}}\dot{L}(\theta_0) \xrightarrow{L} \alpha \sim N(0,i(\theta_0)) \]

步骤4：应用Slutsky定理得最终结论

Slutsky定理：若\(X_n \xrightarrow{L} X\)，\(Y_n \xrightarrow{P} c\)（c为常数），则\(Y_n X_n \xrightarrow{L} c X\)。

代入\(\eta_n \xrightarrow{P} i(\theta_0)^{-1}\)，\(\alpha_n \xrightarrow{L} N(0,i(\theta_0))\)，得：

\[\sqrt{n}\Delta \theta = \eta_n \cdot \alpha_n \xrightarrow{L} i(\theta_0)^{-1} \cdot \alpha \]

正态分布的线性变换仍为正态分布，计算得：

期望：\(\mathbb{E}\left[ i(\theta_0)^{-1} \alpha \right] = 0\)
方差：\(\text{Var}\left( i(\theta_0)^{-1} \alpha \right) = i(\theta_0)^{-1} \cdot i(\theta_0) \cdot i(\theta_0)^{-1} = i(\theta_0)^{-1}\)

因此：

\[\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{L} N(0,i^{-1}(\theta_0)) \]

渐近正态性得证。

补充说明

BAN估计即最优渐近正态估计，指渐近方差达到C-R下界的渐近正态估计。MLE的渐近方差为\(i^{-1}(\theta_0)/n\)，恰好是无偏估计的C-R方差下界，因此MLE是大样本下的最优估计。

五、渐近正态性的核心推论

推论1

对任意\(\theta \in \Theta\)，有：

\[\sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{L} N(0,i^{-1}(\theta)), \quad \sqrt{n}(\hat{\theta}_n - \theta) = O_p(1) \]

且\(\text{Var}_\theta[\sqrt{n}\hat{\theta}_n(X)] \to i^{-1}(\theta)\)。

解读：定理中\(\theta_0\)是任意真参数，因此结论对所有\(\theta \in \Theta\)成立；依分布收敛推出依概率有界，且渐近方差收敛到正态分布的方差。

推论2

设\(I(\theta)\)为样本Fisher信息矩阵，则：

标准化渐近正态：\(I^{\frac{1}{2}}(\theta)(\hat{\theta}_n - \theta) \xrightarrow{L} N(0,I_p)\)；\(I^{\frac{1}{2}}(\hat{\theta}_n)(\hat{\theta}_n - \theta) \xrightarrow{L} N(0,I_p)\)
二次型渐近卡方：\((\hat{\theta}_n - \theta)^T I(\theta)(\hat{\theta}_n - \theta) \xrightarrow{L} \chi^2(p)\)；\((\hat{\theta}_n - \theta)^T I(\hat{\theta}_n)(\hat{\theta}_n - \theta) \xrightarrow{L} \chi^2(p)\)

证明核心：

由\(I(\theta) = n i(\theta)\)，\(I^{\frac{1}{2}}(\theta) = \sqrt{n} i^{\frac{1}{2}}(\theta)\)，左乘渐近正态式即得标准正态分布；
标准正态向量的二次型服从卡方分布，结合Slutsky定理（\(\hat{\theta}_n \xrightarrow{P} \theta\)），得含\(\hat{\theta}_n\)的结论。

意义：该推论是参数区间估计、Wald假设检验的核心理论基础。

推论3

\[\{\text{Var}_\theta(\hat{\theta}_n)\}^{-\frac{1}{2}}(\hat{\theta}_n - \theta) \xrightarrow{L} N(0,I_p) \]

\[(\hat{\theta}_n - \theta)^T \{\text{Var}_\theta(\hat{\theta}_n)\}^{-1}(\hat{\theta}_n - \theta) \xrightarrow{L} \chi^2(p) \]

单参数特例：

\[\frac{\hat{\theta}_n - \theta}{\sqrt{\text{Var}_\theta(\hat{\theta}_n)}} \xrightarrow{L} N(0,1) \]

证明核心：由推论1，\(n \text{Var}_\theta(\hat{\theta}_n) \to i^{-1}(\theta)\)，因此\(\{\text{Var}_\theta(\hat{\theta}_n)\}^{-\frac{1}{2}} = \sqrt{n} \cdot \{n \text{Var}_\theta(\hat{\theta}_n)\}^{-\frac{1}{2}} \xrightarrow{P} \sqrt{n} i^{\frac{1}{2}}(\theta)\)，结合Slutsky定理即得结论。

意义：该推论给出了实际应用中最常用的Z检验统计量的理论依据。

六、知识点完整归纳总结

模块	核心结论/定理	核心表达式	关键条件	核心意义
预备知识	对数似然可加性	\(L(\theta) = \sum_{i=1}^n l(\theta,X_i)\)	样本独立同分布	将似然转化为独立和，为大数定律/CLT应用奠定基础
	得分函数零均值	\(\mathbb{E}_\theta[\dot{l}(\theta,X_1)] = 0\)，\(\mathbb{E}_\theta[\dot{L}(\theta)] = 0\)	C-R正则条件（求导与积分可交换）	得分函数满足CLT的核心前提
	Fisher信息等价定义	\(i(\theta) = \text{Var}_\theta[\dot{l}] = \mathbb{E}_\theta[-\ddot{l}]\)，\(I(\theta)=ni(\theta)\)	C-R正则条件	刻画参数信息含量，是C-R下界与渐近方差的核心
引理5.3.4（似然导数渐近行为）	一阶导数收敛性	\(n^{-1}\dot{L}(\theta) \xrightarrow{\text{a.e.}} 0\)，\(\dot{L}(\theta)=o_p(n)\)	独立同分布、\(\mathbb{E}[\dot{l}]\)存在	刻画得分函数的渐近阶
	高阶导数渐近阶	\(n^{-1}L^{(k)}(\theta) \xrightarrow{\text{a.e.}} a_k(\theta)\)，\(L^{(k)}(\theta)=O_p(n)\)	独立同分布、\(\mathbb{E}[l^{(k)}]\)存在	刻画高阶导数的渐近行为
	观察信息相合性	\(-\frac{1}{n}\ddot{L}(\theta) \xrightarrow{\text{a.e.}} i(\theta)\)	独立同分布、Fisher信息存在	样本观察信息收敛到总体Fisher信息
	得分函数渐近正态性	\(\frac{1}{\sqrt{n}}\dot{L}(\theta) \xrightarrow{L} N(0,i(\theta))\)	独立同分布、\(\text{Var}[\dot{l}]\)有限	MLE渐近正态性的核心基础
	观察信息与Fisher信息的渐近关系	\(-\ddot{L}(\theta) = I(\theta) + O_p(n^{1/2})\)，\([-\ddot{L}(\theta)]^{-1} = I^{-1}(\theta) + O_p(n^{-3/2})\)	独立同分布、\(\text{Var}[\ddot{l}]\)有限	为MLE渐近方差计算提供依据
核心定理1：强相合性	似然方程必有强相合解	\(P_{\theta_0}\left( \lim_{n \to \infty} \hat{\theta}_n = \theta_0 \right) = 1\)	C-R正则族、\(\Theta\)是开集、独立同分布样本	大样本下MLE几乎必然收敛到真实参数，保证估计的一致性
核心定理2：渐近正态性	MLE的渐近正态分布	\(\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{L} N(0,i^{-1}(\theta_0))\)	C-R正则族、似然方程有相合解、\(L^{(3)}(\theta)\)连续	大样本下MLE服从正态分布，渐近方差达到C-R下界，是BAN估计
应用层推论	标准化MLE的渐近标准正态	\(I^{1/2}(\theta)(\hat{\theta}_n - \theta) \xrightarrow{L} N(0,I_p)\)，\(\frac{\hat{\theta}_n - \theta}{\sqrt{\text{Var}(\hat{\theta}_n)}} \xrightarrow{L} N(0,1)\)	满足渐近正态性条件	用于构造参数置信区间、Z检验
	MLE二次型的渐近卡方分布	\((\hat{\theta}_n - \theta)^T I(\theta)(\hat{\theta}_n - \theta) \xrightarrow{L} \chi^2(p)\)	满足渐近正态性条件	用于构造Wald检验统计量、多参数联合检验

posted on 2026-02-25 08:53 Indian_Mysore 阅读(12) 评论(0) 收藏举报

刷新页面返回顶部

昆仑山:眼中无形心中有穴之穴人合一

5.3.4最大似然估计的相合性与渐近正态性

最大似然估计的相合性与渐近正态性完整讲解与推导

一、核心预备知识与基础设定

1. 基本定义与记号

2. 得分函数与Fisher信息

(1) 得分函数（Score Function）

(2) Fisher信息（Fisher Information）

3. 高阶导数记号

二、似然函数导数的渐近性质（引理5.3.4）

(1) 一阶导数的收敛性

(2) 高阶导数的渐近阶与观察信息的相合性

(3) 得分函数的渐近正态性

(4) 观察信息与Fisher信息的渐近关系

三、最大似然估计的强相合性（定理5.3.5）

定理内容

详细证明

步骤1：构造\(\theta_0\)的邻域序列

步骤2：应用Kullback-Leibler信息不等式

步骤3：对边界点应用强大数定律

步骤4：证明最大值点在邻域内部

步骤5：强相合性收尾

补充说明

四、最大似然估计的渐近正态性（定理5.3.6）

定理内容

详细证明

步骤1：似然方程的泰勒展开

步骤2：整理出\(\sqrt{n}\Delta \theta\)的表达式

步骤3：分别分析\(\eta_n\)和\(\alpha_n\)的渐近行为

步骤4：应用Slutsky定理得最终结论

补充说明

五、渐近正态性的核心推论

推论1

推论2

推论3

六、知识点完整归纳总结

导航

公告

昆仑山:眼中无形心中有穴之穴人合一

5.3.4最大似然估计的相合性与渐近正态性

最大似然估计的相合性与渐近正态性 完整讲解与推导

一、核心预备知识与基础设定

1. 基本定义与记号

2. 得分函数与Fisher信息

(1) 得分函数（Score Function）

(2) Fisher信息（Fisher Information）

3. 高阶导数记号

二、似然函数导数的渐近性质（引理5.3.4）

(1) 一阶导数的收敛性

(2) 高阶导数的渐近阶与观察信息的相合性

(3) 得分函数的渐近正态性

(4) 观察信息与Fisher信息的渐近关系

三、最大似然估计的强相合性（定理5.3.5）

定理内容

详细证明

步骤1：构造\(\theta_0\)的邻域序列

步骤2：应用Kullback-Leibler信息不等式

步骤3：对边界点应用强大数定律

步骤4：证明最大值点在邻域内部

步骤5：强相合性收尾

补充说明

四、最大似然估计的渐近正态性（定理5.3.6）

定理内容

详细证明

步骤1：似然方程的泰勒展开

步骤2：整理出\(\sqrt{n}\Delta \theta\)的表达式

步骤3：分别分析\(\eta_n\)和\(\alpha_n\)的渐近行为

步骤4：应用Slutsky定理得最终结论

补充说明

五、渐近正态性的核心推论

推论1

推论2

推论3

六、知识点完整归纳总结

导航

公告

最大似然估计的相合性与渐近正态性完整讲解与推导