昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

5.3.4最大似然估计的相合性与渐近正态性

最大似然估计的相合性与渐近正态性 完整讲解与推导

一、核心预备知识与基础设定

我们首先明确研究的基本框架,所有结论均基于C-R(Cramer-Rao)正则分布族与独立同分布样本,这是后续大数定律、中心极限定理可应用的前提。

1. 基本定义与记号

设总体\(X_1 \sim f(x_1,\theta)\),其中\(\theta \in \Theta \subset \mathbb{R}^p\)为待估参数,\(f(x,\theta)\)为总体的概率密度(离散情形为分布律);\(X_1,X_2,\dots,X_n\)为来自总体的独立同分布样本。

  • 样本联合密度:\(f(x,\theta) = \prod_{i=1}^n f(x_i,\theta)\)
  • 单样本对数似然:\(l(\theta,x_1) = \log f(x_1,\theta)\)
  • 样本对数似然函数:

    \[L(\theta) = L(\theta,x) = \log f(x,\theta) = \sum_{i=1}^n l(\theta,x_i) \tag{5.3.13} \]

    该式是所有渐近性质推导的核心——对数似然可分解为独立同分布随机变量的和,因此可以直接应用大数定律(LLN)和中心极限定理(CLT)。

2. 得分函数与Fisher信息

(1) 得分函数(Score Function)

对数似然关于参数的一阶导数,刻画了似然函数随参数的变化率:

  • 单样本得分:\(\dot{l}(\theta,x_1) = \frac{\partial \log f(x_1,\theta)}{\partial \theta}\)
  • 样本总得分:\(S(X,\theta) = \dot{L}(\theta) = \sum_{i=1}^n \dot{l}(\theta,X_i)\)

核心性质:得分函数零均值
在C-R正则条件下(求导与积分可交换次序),有:

\[\mathbb{E}_\theta\left[\dot{l}(\theta,X_1)\right] = 0, \quad \mathbb{E}_\theta\left[\dot{L}(\theta)\right] = 0 \]

证明

\[\begin{align*} \mathbb{E}_\theta\left[\dot{l}(\theta,X_1)\right] &= \int_{\mathcal{X}} \frac{\partial \log f(x_1,\theta)}{\partial \theta} f(x_1,\theta) dx_1 \\ &= \int_{\mathcal{X}} \frac{\partial f(x_1,\theta)}{\partial \theta} dx_1 = \frac{\partial}{\partial \theta} \int_{\mathcal{X}} f(x_1,\theta) dx_1 = \frac{\partial}{\partial \theta}1 = 0 \end{align*} \]

样本总得分的期望由独立同分布的可加性直接得0。

(2) Fisher信息(Fisher Information)

刻画了样本中包含的关于参数\(\theta\)的信息量,是参数估计精度的核心度量,有两个等价定义:

  • 单样本Fisher信息:

    \[i(\theta) = \text{Var}_\theta\left[\dot{l}(\theta,X_1)\right] = \mathbb{E}_\theta\left[ -\ddot{l}(\theta,X_1) \right] \]

  • 样本总Fisher信息:

    \[I(\theta) = \text{Var}_\theta\left[\dot{L}(\theta)\right] = \mathbb{E}_\theta\left[ -\ddot{L}(\theta) \right] = n i(\theta) \]

等价性证明
\(\mathbb{E}_\theta\left[\dot{l}(\theta,X_1)\right] = 0\)两边关于\(\theta\)再次求导,交换求导与积分次序:

\[\int_{\mathcal{X}} \frac{\partial}{\partial \theta}\left( \dot{l}(\theta,x) f(x,\theta) \right) dx = 0 \]

展开被积函数:

\[\ddot{l}(\theta,x) f(x,\theta) + \dot{l}(\theta,x) \cdot \dot{l}(\theta,x) f(x,\theta) \]

积分后移项得:

\[\mathbb{E}_\theta\left[\ddot{l}(\theta,X_1)\right] + \mathbb{E}_\theta\left[\dot{l}(\theta,X_1)^2\right] = 0 \]

结合\(\mathbb{E}[\dot{l}]=0\)\(\text{Var}[\dot{l}] = \mathbb{E}[\dot{l}^2]\),最终得:

\[i(\theta) = \mathbb{E}_\theta\left[ -\ddot{l}(\theta,X_1) \right] \]

3. 高阶导数记号

\(l^{(k)}(\theta,X_1)\)\(l(\theta,X_1)\)关于\(\theta\)的k阶导数,定义:

\[\mathbb{E}_\theta\left[l^{(k)}(\theta,X_1)\right] = a_k(\theta), \quad \text{Var}_\theta\left[l^{(k)}(\theta,X_1)\right] = \nu_k(\theta) \]

由前述结论,显然有:

\[a_1(\theta) = 0, \quad \nu_1(\theta) = i(\theta) = -a_2(\theta) \]


二、似然函数导数的渐近性质(引理5.3.4)

该引理是连接基础性质与核心定理的桥梁,完整刻画了对数似然各阶导数的大样本行为。

引理设定\(X=(X_1,\dots,X_n)^T\)服从C-R正则分布族,\(X_1,\dots,X_n\)独立同分布,\(X_1\)的Fisher信息为\(i(\theta)\),则有以下4条核心结论。

(1) 一阶导数的收敛性

\[n^{-1}\dot{L}(\theta) \to 0 \ (\text{a.e.}), \quad \dot{L}(\theta) = o_p(n) \]

详细证明
由对数似然的可加性,\(n^{-1}\dot{L}(\theta) = \frac{1}{n}\sum_{i=1}^n \dot{l}(\theta,X_i)\)
\(\dot{l}(\theta,X_i)\)是独立同分布随机序列,且\(\mathbb{E}_\theta\left[\dot{l}(\theta,X_1)\right] = 0\),满足强大数定律(SLLN)的条件,因此:

\[\frac{1}{n}\sum_{i=1}^n \dot{l}(\theta,X_i) \xrightarrow{\text{a.e.}} \mathbb{E}_\theta\left[\dot{l}(\theta,X_1)\right] = 0 \]

\(n^{-1}\dot{L}(\theta) \xrightarrow{\text{a.e.}} 0\)

而几乎必然收敛可推出依概率收敛,因此\(\frac{\dot{L}(\theta)}{n} \xrightarrow{P} 0\),依概率小o记号的定义即\(\dot{L}(\theta) = o_p(n)\)

(2) 高阶导数的渐近阶与观察信息的相合性

\[n^{-1}L^{(k)}(\theta) = O_p(1), \quad L^{(k)}(\theta) = O_p(n), \ k=2,3,\dots \]

特别地:

\[-\frac{1}{n}\ddot{L}(\theta) \to i(\theta) \ (\text{a.e.}), \quad [-\ddot{L}(\theta)]^{-1} = O_p(n^{-1}) \]

详细证明
对k阶导数,\(L^{(k)}(\theta) = \sum_{i=1}^n l^{(k)}(\theta,X_i)\),因此\(n^{-1}L^{(k)}(\theta) = \frac{1}{n}\sum_{i=1}^n l^{(k)}(\theta,X_i)\)
在正则条件下,\(\mathbb{E}_\theta\left[l^{(k)}(\theta,X_1)\right] = a_k(\theta)\)存在有限,由强大数定律:

\[\frac{1}{n}\sum_{i=1}^n l^{(k)}(\theta,X_i) \xrightarrow{\text{a.e.}} a_k(\theta) \]

几乎必然收敛推出依概率收敛,依概率收敛到常数的序列是依概率有界的(\(O_p(1)\)),因此\(n^{-1}L^{(k)}(\theta) = O_p(1)\),即\(L^{(k)}(\theta) = O_p(n)\)

特殊情形证明
当k=2时,\(-\frac{1}{n}\ddot{L}(\theta) = \frac{1}{n}\sum_{i=1}^n \left[ -\ddot{l}(\theta,X_i) \right]\),而\(\mathbb{E}_\theta\left[ -\ddot{l}(\theta,X_1) \right] = i(\theta)\),再次应用强大数定律:

\[-\frac{1}{n}\ddot{L}(\theta) \xrightarrow{\text{a.e.}} i(\theta) \]

\([-\ddot{L}(\theta)]^{-1} = O_p(n^{-1})\),由上式得\(\frac{-\ddot{L}(\theta)}{n} \xrightarrow{P} i(\theta)\),正则条件下\(i(\theta) > 0\),因此\(\frac{n}{-\ddot{L}(\theta)} \xrightarrow{P} i(\theta)^{-1}\),即\(\frac{n}{-\ddot{L}(\theta)} = O_p(1)\),两边乘\(n^{-1}\)\([-\ddot{L}(\theta)]^{-1} = O_p(n^{-1})\)

(3) 得分函数的渐近正态性

\[\frac{1}{\sqrt{n}}\dot{L}(\theta) \xrightarrow{L} N(0,i(\theta)), \quad \dot{L}(\theta) = O_p(n^{1/2}) \]

详细证明
\(\frac{1}{\sqrt{n}}\dot{L}(\theta) = \sqrt{n} \cdot \left( \frac{1}{n}\sum_{i=1}^n \dot{l}(\theta,X_i) \right)\),其中:

  • \(\dot{l}(\theta,X_i)\)独立同分布;
  • \(\mathbb{E}[\dot{l}(\theta,X_1)] = 0\)
  • \(\text{Var}[\dot{l}(\theta,X_1)] = i(\theta) < +\infty\)

完全满足林德伯格-莱维中心极限定理(独立同分布CLT)的条件,因此:

\[\sqrt{n} \left( \frac{1}{n}\sum_{i=1}^n \dot{l}(\theta,X_i) - \mathbb{E}[\dot{l}] \right) \xrightarrow{L} N\left(0, \text{Var}[\dot{l}]\right) \]

代入零均值和方差,直接得:

\[\frac{1}{\sqrt{n}}\dot{L}(\theta) \xrightarrow{L} N(0,i(\theta)) \]

依分布收敛到随机变量的序列必为依概率有界,因此\(\frac{\dot{L}(\theta)}{\sqrt{n}} = O_p(1)\),即\(\dot{L}(\theta) = O_p(n^{1/2})\)

(4) 观察信息与Fisher信息的渐近关系

\[\frac{1}{\sqrt{n}}\left[ -\ddot{L}(\theta) - I(\theta) \right] \xrightarrow{L} N(0,\nu_2(\theta)), \quad -\ddot{L}(\theta) = I(\theta) + O_p(n^{1/2}) \]

\[[-\ddot{L}(\theta)]^{-1} = I^{-1}(\theta) + O_p(n^{-3/2}) \]

详细证明
样本总Fisher信息\(I(\theta) = n i(\theta) = n \cdot \mathbb{E}\left[ -\ddot{l}(\theta,X_1) \right]\),因此:

\[\frac{1}{\sqrt{n}}\left[ -\ddot{L}(\theta) - I(\theta) \right] = \sqrt{n} \left( \frac{1}{n}\sum_{i=1}^n \left[ -\ddot{l}(\theta,X_i) \right] - \mathbb{E}\left[ -\ddot{l}(\theta,X_1) \right] \right) \]

\(-\ddot{l}(\theta,X_i)\)独立同分布,期望为\(i(\theta)\),方差为\(\nu_2(\theta) = \text{Var}\left[ l^{(2)}(\theta,X_1) \right]\),满足CLT条件,因此:

\[\frac{1}{\sqrt{n}}\left[ -\ddot{L}(\theta) - I(\theta) \right] \xrightarrow{L} N(0,\nu_2(\theta)) \]

由上式,\(\frac{-\ddot{L}(\theta) - I(\theta)}{\sqrt{n}} = O_p(1)\),因此\(-\ddot{L}(\theta) - I(\theta) = O_p(n^{1/2})\),即\(-\ddot{L}(\theta) = I(\theta) + O_p(n^{1/2})\)

对逆矩阵的渐近展开,记\(A = -\ddot{L}(\theta)\)\(B = I(\theta)\),则\(A = B + O_p(n^{1/2})\),对\(A^{-1}\)做泰勒展开:

\[(B + (A-B))^{-1} = B^{-1} - B^{-1}(A-B)B^{-1} + o_p\left( \|B^{-1}(A-B)B^{-1}\| \right) \]

代入\(B^{-1} = O(n^{-1})\)\(A-B = O_p(n^{1/2})\),得\(B^{-1}(A-B)B^{-1} = O_p(n^{-3/2})\),因此:

\[[-\ddot{L}(\theta)]^{-1} = I^{-1}(\theta) + O_p(n^{-3/2}) \]


三、最大似然估计的强相合性(定理5.3.5)

定理内容

\(X=(X_1,\dots,X_n)^T\)服从C-R正则分布族,\(X_1,\dots,X_n\)独立同分布,参数空间\(\Theta\)\(\mathbb{R}^p\)上的开集。则似然方程\(\dot{L}(\theta)=0\)\(n \to +\infty\)时必有解\(\hat{\theta}_n(X) = \hat{\theta}(X_1,\dots,X_n)\),且对真参数\(\theta_0 \in \Theta\)满足强相合性

\[P_{\theta_0}\left\{ X: \lim_{n \to \infty} \hat{\theta}_n(X) = \theta_0 \right\} = 1, \quad \theta_0 \in \Theta \]

详细证明

证明核心思路:证明n充分大时,对数似然\(L(\theta)\)\(\theta_0\)的任意小邻域内取得最大值,因此最大值点(似然方程的解)必然收敛到\(\theta_0\)

步骤1:构造\(\theta_0\)的邻域序列

任取真参数\(\theta_0 \in \Theta\),因\(\Theta\)是开集,存在一列闭邻域:

\[U_m = \left\{ \theta' : \|\theta' - \theta_0\| \leq \delta_m \right\}, \quad \delta_m > 0, \ \delta_m \to 0 \ (m \to \infty) \]

且所有\(U_m \subset \Theta\)。我们只需证明:对任意m,n充分大时,\(L(\theta)\)\(U_m\)上的最大值不可能在边界\(\partial U_m = \{\theta': \|\theta' - \theta_0\| = \delta_m\}\)上达到

步骤2:应用Kullback-Leibler信息不等式

K-L信息不等式:对两个不同的分布\(f\)\(g\),有\(\mathbb{E}_f\left[ \log f(X) \right] > \mathbb{E}_f\left[ \log g(X) \right]\),等号当且仅当\(f=g\)几乎处处成立。

取真分布\(f = f(x,\theta_0)\),任意非真分布\(g = f(x,\theta')\)\(\theta' \neq \theta_0\)),直接得:

\[\mathbb{E}_{\theta_0}\left[ \log f(X_1,\theta_0) \right] > \mathbb{E}_{\theta_0}\left[ \log f(X_1,\theta') \right], \quad \forall \theta' \neq \theta_0 \tag{5.3.20} \]

步骤3:对边界点应用强大数定律

对边界\(\partial U_m\)上的任意\(\theta'\),由强大数定律:

\[\frac{1}{n}L(\theta_0) = \frac{1}{n}\sum_{i=1}^n \log f(X_i,\theta_0) \xrightarrow{\text{a.e.}} \mathbb{E}_{\theta_0}\left[ \log f(X_1,\theta_0) \right] \]

\[\frac{1}{n}L(\theta') = \frac{1}{n}\sum_{i=1}^n \log f(X_i,\theta') \xrightarrow{\text{a.e.}} \mathbb{E}_{\theta_0}\left[ \log f(X_1,\theta') \right] \]

结合K-L不等式,存在正整数\(N_m\)和零测集\(A_{n,m}\)\(P_{\theta_0}(A_{n,m})=0\)),当\(n > N_m\)时,对所有\(x \notin A_{n,m}\),有:

\[\frac{1}{n}L(\theta_0) > \frac{1}{n}L(\theta'), \quad \forall \theta' \in \partial U_m \]

\(L(\theta_0) > L(\theta')\),边界上的似然值均小于\(\theta_0\)处的似然值。

步骤4:证明最大值点在邻域内部

上述结论说明:n充分大时,\(L(\theta)\)\(U_m\)上的最大值只能在内部取得。而\(L(\theta)\)\(\Theta\)上可导,内部的最大值点\(\hat{\theta}_n(x)\)必满足似然方程\(\dot{L}(\hat{\theta}_n(x)) = 0\),且\(\|\hat{\theta}_n(x) - \theta_0\| < \delta_m\)

步骤5:强相合性收尾

\(m \to \infty\),则\(\delta_m \to 0\),记零测集\(A = \bigcup_{m=1}^\infty \bigcup_{n=N_m}^\infty A_{n,m}\)(可数个零测集的并仍为零测集,\(P_{\theta_0}(A)=0\))。

对所有\(x \notin A\),任取\(\varepsilon > 0\),存在m使得\(\delta_m < \varepsilon\),当\(n > N_m\)时,\(\|\hat{\theta}_n(x) - \theta_0\| < \delta_m < \varepsilon\),即\(\lim_{n \to \infty} \hat{\theta}_n(x) = \theta_0\)

因此:

\[P_{\theta_0}\left\{ X: \lim_{n \to \infty} \hat{\theta}_n(X) = \theta_0 \right\} = 1 \]

强相合性得证。

补充说明

该定理证明了似然方程必有强相合解;若似然函数单峰(如指数族分布),似然方程解唯一,则该唯一解就是MLE,且必为强相合。


四、最大似然估计的渐近正态性(定理5.3.6)

定理内容

\(X=(X_1,\dots,X_n)^T\)服从C-R正则分布族,\(X_1,\dots,X_n\)独立同分布,\(\Theta\)\(\mathbb{R}^p\)上的开集。假定似然方程\(\dot{L}(\theta)=0\)\(n \to \infty\)时有相合解\(\hat{\theta}_n\),且\(L^{(3)}(\theta)\)\(\Theta\)中存在且连续,则\(\hat{\theta}_n\)\(\theta\)BAN估计(最优渐近正态估计),且满足:

\[\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{L} N(0,i^{-1}(\theta_0)) \]

详细证明

我们仅证明一维参数情形(p=1),多维矩阵形式的证明完全类似。

步骤1:似然方程的泰勒展开

\(\hat{\theta}_n\)是似然方程的解,故\(\dot{L}(\hat{\theta}_n) = 0\)。将\(\dot{L}(\theta)\)在真参数\(\theta_0\)处做二阶泰勒展开:

\[\dot{L}(\hat{\theta}_n) = \dot{L}(\theta_0) + \ddot{L}(\theta_0)(\hat{\theta}_n - \theta_0) + \frac{1}{2} L^{(3)}(\xi) (\hat{\theta}_n - \theta_0)^2 = 0 \]

其中\(\xi\)介于\(\hat{\theta}_n\)\(\theta_0\)之间,记\(\Delta \theta = \hat{\theta}_n - \theta_0\),化简得:

\[\dot{L}(\theta_0) = \left[ -\ddot{L}(\theta_0) - \frac{1}{2} \Delta \theta \cdot L^{(3)}(\xi) \right] \cdot \Delta \theta \]

步骤2:整理出\(\sqrt{n}\Delta \theta\)的表达式

两边除以\(\sqrt{n}\),变形为:

\[\frac{1}{\sqrt{n}}\dot{L}(\theta_0) = \left[ -\frac{1}{n}\ddot{L}(\theta_0) - \frac{1}{2} \Delta \theta \cdot \frac{1}{n} L^{(3)}(\xi) \right] \cdot \sqrt{n} \Delta \theta \]

解出\(\sqrt{n}\Delta \theta\)

\[\sqrt{n}\Delta \theta = \underbrace{\left[ -\frac{1}{n}\ddot{L}(\theta_0) - \frac{1}{2} \Delta \theta \cdot \frac{1}{n} L^{(3)}(\xi) \right]^{-1}}_{\eta_n} \cdot \underbrace{\frac{1}{\sqrt{n}}\dot{L}(\theta_0)}_{\alpha_n} \]

步骤3:分别分析\(\eta_n\)\(\alpha_n\)的渐近行为

  1. \(\eta_n\)的依概率收敛

    • 由引理5.3.4,\(-\frac{1}{n}\ddot{L}(\theta_0) \xrightarrow{P} i(\theta_0)\)
    • \(\hat{\theta}_n\)的相合性,\(\Delta \theta = \hat{\theta}_n - \theta_0 \xrightarrow{P} 0\)
    • 由引理5.3.4,\(n^{-1}L^{(3)}(\xi) = O_p(1)\)(三阶导数的样本均值依概率有界);
    • 因此\(\frac{1}{2} \Delta \theta \cdot \frac{1}{n} L^{(3)}(\xi) = o_p(1) \cdot O_p(1) = o_p(1)\),依概率收敛到0。

    综上,括号内的部分依概率收敛到\(i(\theta_0)\),由连续映射定理:

    \[\eta_n \xrightarrow{P} i(\theta_0)^{-1} \]

  2. \(\alpha_n\)的依分布收敛
    由引理5.3.4的得分函数渐近正态性,直接得:

    \[\alpha_n = \frac{1}{\sqrt{n}}\dot{L}(\theta_0) \xrightarrow{L} \alpha \sim N(0,i(\theta_0)) \]

步骤4:应用Slutsky定理得最终结论

Slutsky定理:若\(X_n \xrightarrow{L} X\)\(Y_n \xrightarrow{P} c\)(c为常数),则\(Y_n X_n \xrightarrow{L} c X\)

代入\(\eta_n \xrightarrow{P} i(\theta_0)^{-1}\)\(\alpha_n \xrightarrow{L} N(0,i(\theta_0))\),得:

\[\sqrt{n}\Delta \theta = \eta_n \cdot \alpha_n \xrightarrow{L} i(\theta_0)^{-1} \cdot \alpha \]

正态分布的线性变换仍为正态分布,计算得:

  • 期望:\(\mathbb{E}\left[ i(\theta_0)^{-1} \alpha \right] = 0\)
  • 方差:\(\text{Var}\left( i(\theta_0)^{-1} \alpha \right) = i(\theta_0)^{-1} \cdot i(\theta_0) \cdot i(\theta_0)^{-1} = i(\theta_0)^{-1}\)

因此:

\[\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{L} N(0,i^{-1}(\theta_0)) \]

渐近正态性得证。

补充说明

BAN估计即最优渐近正态估计,指渐近方差达到C-R下界的渐近正态估计。MLE的渐近方差为\(i^{-1}(\theta_0)/n\),恰好是无偏估计的C-R方差下界,因此MLE是大样本下的最优估计。


五、渐近正态性的核心推论

推论1

对任意\(\theta \in \Theta\),有:

\[\sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{L} N(0,i^{-1}(\theta)), \quad \sqrt{n}(\hat{\theta}_n - \theta) = O_p(1) \]

\(\text{Var}_\theta[\sqrt{n}\hat{\theta}_n(X)] \to i^{-1}(\theta)\)

解读:定理中\(\theta_0\)是任意真参数,因此结论对所有\(\theta \in \Theta\)成立;依分布收敛推出依概率有界,且渐近方差收敛到正态分布的方差。

推论2

\(I(\theta)\)为样本Fisher信息矩阵,则:

  1. 标准化渐近正态:\(I^{\frac{1}{2}}(\theta)(\hat{\theta}_n - \theta) \xrightarrow{L} N(0,I_p)\)\(I^{\frac{1}{2}}(\hat{\theta}_n)(\hat{\theta}_n - \theta) \xrightarrow{L} N(0,I_p)\)
  2. 二次型渐近卡方:\((\hat{\theta}_n - \theta)^T I(\theta)(\hat{\theta}_n - \theta) \xrightarrow{L} \chi^2(p)\)\((\hat{\theta}_n - \theta)^T I(\hat{\theta}_n)(\hat{\theta}_n - \theta) \xrightarrow{L} \chi^2(p)\)

证明核心

  • \(I(\theta) = n i(\theta)\)\(I^{\frac{1}{2}}(\theta) = \sqrt{n} i^{\frac{1}{2}}(\theta)\),左乘渐近正态式即得标准正态分布;
  • 标准正态向量的二次型服从卡方分布,结合Slutsky定理(\(\hat{\theta}_n \xrightarrow{P} \theta\)),得含\(\hat{\theta}_n\)的结论。

意义:该推论是参数区间估计、Wald假设检验的核心理论基础。

推论3

\[\{\text{Var}_\theta(\hat{\theta}_n)\}^{-\frac{1}{2}}(\hat{\theta}_n - \theta) \xrightarrow{L} N(0,I_p) \]

\[(\hat{\theta}_n - \theta)^T \{\text{Var}_\theta(\hat{\theta}_n)\}^{-1}(\hat{\theta}_n - \theta) \xrightarrow{L} \chi^2(p) \]

单参数特例:

\[\frac{\hat{\theta}_n - \theta}{\sqrt{\text{Var}_\theta(\hat{\theta}_n)}} \xrightarrow{L} N(0,1) \]

证明核心:由推论1,\(n \text{Var}_\theta(\hat{\theta}_n) \to i^{-1}(\theta)\),因此\(\{\text{Var}_\theta(\hat{\theta}_n)\}^{-\frac{1}{2}} = \sqrt{n} \cdot \{n \text{Var}_\theta(\hat{\theta}_n)\}^{-\frac{1}{2}} \xrightarrow{P} \sqrt{n} i^{\frac{1}{2}}(\theta)\),结合Slutsky定理即得结论。

意义:该推论给出了实际应用中最常用的Z检验统计量的理论依据。


六、知识点完整归纳总结

模块 核心结论/定理 核心表达式 关键条件 核心意义
预备知识 对数似然可加性 \(L(\theta) = \sum_{i=1}^n l(\theta,X_i)\) 样本独立同分布 将似然转化为独立和,为大数定律/CLT应用奠定基础
得分函数零均值 \(\mathbb{E}_\theta[\dot{l}(\theta,X_1)] = 0\)\(\mathbb{E}_\theta[\dot{L}(\theta)] = 0\) C-R正则条件(求导与积分可交换) 得分函数满足CLT的核心前提
Fisher信息等价定义 \(i(\theta) = \text{Var}_\theta[\dot{l}] = \mathbb{E}_\theta[-\ddot{l}]\)\(I(\theta)=ni(\theta)\) C-R正则条件 刻画参数信息含量,是C-R下界与渐近方差的核心
引理5.3.4(似然导数渐近行为) 一阶导数收敛性 \(n^{-1}\dot{L}(\theta) \xrightarrow{\text{a.e.}} 0\)\(\dot{L}(\theta)=o_p(n)\) 独立同分布、\(\mathbb{E}[\dot{l}]\)存在 刻画得分函数的渐近阶
高阶导数渐近阶 \(n^{-1}L^{(k)}(\theta) \xrightarrow{\text{a.e.}} a_k(\theta)\)\(L^{(k)}(\theta)=O_p(n)\) 独立同分布、\(\mathbb{E}[l^{(k)}]\)存在 刻画高阶导数的渐近行为
观察信息相合性 \(-\frac{1}{n}\ddot{L}(\theta) \xrightarrow{\text{a.e.}} i(\theta)\) 独立同分布、Fisher信息存在 样本观察信息收敛到总体Fisher信息
得分函数渐近正态性 \(\frac{1}{\sqrt{n}}\dot{L}(\theta) \xrightarrow{L} N(0,i(\theta))\) 独立同分布、\(\text{Var}[\dot{l}]\)有限 MLE渐近正态性的核心基础
观察信息与Fisher信息的渐近关系 \(-\ddot{L}(\theta) = I(\theta) + O_p(n^{1/2})\)\([-\ddot{L}(\theta)]^{-1} = I^{-1}(\theta) + O_p(n^{-3/2})\) 独立同分布、\(\text{Var}[\ddot{l}]\)有限 为MLE渐近方差计算提供依据
核心定理1:强相合性 似然方程必有强相合解 \(P_{\theta_0}\left( \lim_{n \to \infty} \hat{\theta}_n = \theta_0 \right) = 1\) C-R正则族、\(\Theta\)是开集、独立同分布样本 大样本下MLE几乎必然收敛到真实参数,保证估计的一致性
核心定理2:渐近正态性 MLE的渐近正态分布 \(\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{L} N(0,i^{-1}(\theta_0))\) C-R正则族、似然方程有相合解、\(L^{(3)}(\theta)\)连续 大样本下MLE服从正态分布,渐近方差达到C-R下界,是BAN估计
应用层推论 标准化MLE的渐近标准正态 \(I^{1/2}(\theta)(\hat{\theta}_n - \theta) \xrightarrow{L} N(0,I_p)\)\(\frac{\hat{\theta}_n - \theta}{\sqrt{\text{Var}(\hat{\theta}_n)}} \xrightarrow{L} N(0,1)\) 满足渐近正态性条件 用于构造参数置信区间、Z检验
MLE二次型的渐近卡方分布 \((\hat{\theta}_n - \theta)^T I(\theta)(\hat{\theta}_n - \theta) \xrightarrow{L} \chi^2(p)\) 满足渐近正态性条件 用于构造Wald检验统计量、多参数联合检验

posted on 2026-02-25 08:53  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航