昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

7.1.3基于渐近分布的枢轴量法

基于渐近分布的枢轴量法 深度讲解与完整推导

作为深耕数理统计领域多年的研究员,我将从方法背景、理论基石、核心公式推导、例题逐步骤拆解、方法边界与注意事项、结构化总结六个维度,完整讲解大样本下基于渐近分布的枢轴量法,确保每一步逻辑闭环、推导无跳步,彻底解决大样本区间估计的核心难点。


一、方法核心背景:为什么需要渐近分布的枢轴量法?

前序讲解的精确枢轴量法,要求枢轴量的精确概率分布完全已知且与未知参数无关,仅适用于正态分布、指数分布等少数特殊分布的小样本场景。但在实际应用中,我们面临大量无法获取精确分布的场景:

  1. 离散型分布(二项分布、Poisson分布等):分布函数、分位数计算繁琐,无法构造精确枢轴量;
  2. 非正态连续型总体:无现成的精确分布结论,小样本下分布难以推导;
  3. 复杂参数模型:极大似然估计(MLE)仅能保证渐近性质,无法得到小样本精确分布。

此时,我们利用大样本下的渐近正态性(中心极限定理、MLE的渐近正态性)构造渐近枢轴量——即枢轴量的极限分布已知且与未知参数无关,进而得到近似满足覆盖概率要求的渐近置信区间/置信域


二、理论基石:核心定理与概念铺垫

本方法的所有推导均基于以下3个核心定理,必须先明确其内涵:

1. MLE的渐近正态性(核心支撑)

在参数分布族的正则条件(分布支撑与参数无关、密度函数关于参数可导、Fisher信息存在且有限等)下,设\(X_1,X_2,\dots,X_n\)独立同分布,\(\hat{\theta}\)是未知参数\(\theta\)的极大似然估计,则:

\[\sqrt{n}(\hat{\theta} - \theta) \stackrel{L}{\rightarrow} N\left(0, i^{-1}(\theta)\right) \]

  • 符号说明:
    • \(\stackrel{L}{\rightarrow}\):依分布收敛,即\(n\to\infty\)时,统计量的分布收敛到正态分布;
    • \(i(\theta)\)单个样本的Fisher信息,衡量样本中包含的关于参数\(\theta\)的信息量,定义为\(i(\theta) = E_\theta\left[ \left( \frac{\partial \ln f(X;\theta)}{\partial \theta} \right)^2 \right]\)
    • \(I(\theta) = n i(\theta)\)样本的Fisher信息,随样本量\(n\)线性增长。
  • 核心结论:大样本下,MLE\(\hat{\theta}\)服从以真实参数\(\theta\)为均值、以Fisher信息的逆为方差的渐近正态分布。

2. Slutsky定理(“去1律”,实际应用的关键)

设随机序列\(T_n \stackrel{L}{\rightarrow} T\)\(S_n \stackrel{P}{\rightarrow} c\)\(c\)为非零常数,\(\stackrel{P}{\rightarrow}\)为依概率收敛),则:

\[S_n \cdot T_n \stackrel{L}{\rightarrow} c \cdot T \]

  • 核心作用:当渐近枢轴量中包含未知参数时,可用该参数的相合估计替代,不改变极限分布,从而得到可实际计算的枢轴量。

3. 多元正态的渐近推广

\(\theta\)\(p\)维参数向量,则MLE的渐近正态性推广为:

\[\sqrt{n}(\hat{\theta} - \theta) \stackrel{L}{\rightarrow} N\left(0, \boldsymbol{i}^{-1}(\theta)\right) \]

其中\(\boldsymbol{i}(\theta)\)\(p\)阶Fisher信息矩阵,极限分布为\(p\)维标准正态分布\(N(0, I_p)\)\(I_p\)\(p\)阶单位矩阵)。


三、渐近正态置信域的完整推导

我们分多维参数通用形式一维参数实用形式两步推导,先讲清通用理论,再聚焦实际应用最广的一维场景。

3.1 多维参数的渐近枢轴量构造

枢轴量1:基于Fisher信息的渐近枢轴量

由MLE的渐近正态性:\(\sqrt{n}(\hat{\theta} - \theta) \stackrel{L}{\rightarrow} N\left(0, \boldsymbol{i}^{-1}(\theta)\right)\),对其做标准化变换:

\[G(X,\theta) = \sqrt{n} \cdot \boldsymbol{i}^{\frac{1}{2}}(\theta) (\hat{\theta} - \theta) = \boldsymbol{I}^{\frac{1}{2}}(\theta) (\hat{\theta} - \theta) \]

其中\(\boldsymbol{i}^{\frac{1}{2}}(\theta)\)是Fisher信息矩阵的平方根矩阵,满足\(\boldsymbol{i}^{\frac{1}{2}}(\theta) \cdot \boldsymbol{i}^{\frac{1}{2}}(\theta) = \boldsymbol{i}(\theta)\)

分布推导
正态分布的线性变换仍为正态分布,变换后的方差矩阵为:

\[\text{Var}(G) = \boldsymbol{i}^{\frac{1}{2}}(\theta) \cdot \frac{\boldsymbol{i}^{-1}(\theta)}{n} \cdot n \cdot \boldsymbol{i}^{\frac{1}{2}}(\theta) = I_p \]

因此\(G(X,\theta) \stackrel{L}{\rightarrow} N(0, I_p)\),极限分布与未知参数\(\theta\)无关,是渐近枢轴量

枢轴量2:基于方差的渐近枢轴量

\(\text{Var}_\theta(\hat{\theta}) = \boldsymbol{\Sigma}\),由MLE的渐近正态性,\(\boldsymbol{\Sigma} = \frac{\boldsymbol{i}^{-1}(\theta)}{n} = \boldsymbol{I}^{-1}(\theta)\),因此构造:

\[G_1(X,\theta) = \boldsymbol{\Sigma}^{-\frac{1}{2}} (\hat{\theta} - \theta) \]

同理可得\(G_1(X,\theta) \stackrel{L}{\rightarrow} N(0, I_p)\),极限分布与\(\theta\)无关,也是渐近枢轴量。

枢轴量3:可实际计算的实用渐近枢轴量

上述两个枢轴量均包含未知参数\(\theta\),无法直接计算。设\(\hat{\boldsymbol{\Sigma}}\)\(\boldsymbol{\Sigma} = \text{Var}_\theta(\hat{\theta})\)相合估计(即\(\hat{\boldsymbol{\Sigma}} \stackrel{P}{\rightarrow} \boldsymbol{\Sigma}\)),由Slutsky定理:

\[G_2(X,\theta) = \hat{\boldsymbol{\Sigma}}^{-\frac{1}{2}} (\hat{\theta} - \theta) \stackrel{L}{\rightarrow} N(0, I_p) \]

  • 核心优势:\(\hat{\boldsymbol{\Sigma}}\)仅由样本计算,不含未知参数,极限分布仍为标准正态,是实际应用中唯一可落地的渐近枢轴量。

3.2 一维参数的渐近置信区间(核心实用形式)

\(\theta\)为一维单参数时,上述推导可大幅简化,也是实际应用中90%场景的通用形式。

步骤1:构造一维渐近枢轴量

\(\hat{\theta}\)\(\theta\)的MLE,\(\text{Var}_\theta(\hat{\theta}) = \sigma^2\)\(\hat{\sigma}^2\)\(\sigma^2\)的相合估计,则由上述结论:

\[G_2(X,\theta) = \frac{\hat{\theta} - \theta}{\hat{\sigma}} \stackrel{L}{\rightarrow} N(0,1) \]

该式是一维大样本区间估计的核心公式,极限分布为标准正态,与\(\theta\)无关,是可计算的渐近枢轴量。

步骤2:确定分位数与覆盖概率

标准正态分布是对称分布,取等尾分位数\(z_{1-\alpha/2}\)(标准正态分布的\(1-\alpha/2\)下分位数,如\(\alpha=0.05\)\(z_{0.975}=1.96\)),则当\(n\)足够大时,近似有:

\[P_\theta\left\{ \left| \frac{\hat{\theta} - \theta}{\hat{\sigma}} \right| \leq z_{1-\alpha/2} \right\} \approx 1-\alpha \]

步骤3:不等式反解得到置信区间

对绝对值不等式做等价变形:

\[-z_{1-\alpha/2} \leq \frac{\hat{\theta} - \theta}{\hat{\sigma}} \leq z_{1-\alpha/2} \]

两边乘\(\hat{\sigma}\),再移项反转不等号,最终得到:

\[P_\theta\left\{ \hat{\theta} - \hat{\sigma} z_{1-\alpha/2} \leq \theta \leq \hat{\theta} + \hat{\sigma} z_{1-\alpha/2} \right\} \approx 1-\alpha \]

因此,一维参数\(\theta\)渐近正态置信区间为:

\[\boldsymbol{ \left[ \hat{\theta} - \hat{\sigma} z_{1-\alpha/2},\ \hat{\theta} + \hat{\sigma} z_{1-\alpha/2} \right] } \]

单侧置信限的推导

同理,取单侧分位数\(z_{1-\alpha}\),可得到:

  • 渐近置信下限:\(\boldsymbol{ \underline{\theta} = \hat{\theta} - \hat{\sigma} z_{1-\alpha} }\),满足\(P_\theta(\theta \geq \underline{\theta}) \approx 1-\alpha\)
  • 渐近置信上限:\(\boldsymbol{ \overline{\theta} = \hat{\theta} + \hat{\sigma} z_{1-\alpha} }\),满足\(P_\theta(\theta \leq \overline{\theta}) \approx 1-\alpha\)

四、核心例题的逐步骤完整推导

例7.1.9 二项分布\(b(1,p)\)成功概率\(p\)的置信区间

题目

\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim b(1,p)\)(0-1分布)。
(1) 求\(p\)的渐近置信区间;
(2) 新方案40次试验34次成功,置信水平0.95,求\(p\)的置信区间、置信下限,判断是否优于原方案(成功率70%)。


(1) \(p\)的渐近置信区间推导

步骤1:求\(p\)的MLE与方差

0-1分布的概率质量为\(f(x;p)=p^x(1-p)^{1-x}\),似然函数为:

\[L(p) = p^{\sum_{i=1}^n X_i} (1-p)^{n-\sum_{i=1}^n X_i} \]

取对数求导并令导数为0,解得\(p\)的极大似然估计:

\[\hat{p} = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \]

由0-1分布的方差性质,\(\text{Var}(X_1)=p(1-p)\),因此\(\hat{p}\)的方差为:

\[\text{Var}(\hat{p}) = \text{Var}(\bar{X}) = \frac{\text{Var}(X_1)}{n} = \frac{p(1-p)}{n} \]

步骤2:构造渐近枢轴量

由中心极限定理(或MLE渐近正态性),\(\sqrt{n}(\hat{p}-p) \stackrel{L}{\rightarrow} N(0,p(1-p))\),标准化得:

\[\frac{\hat{p} - p}{\sqrt{p(1-p)/n}} \stackrel{L}{\rightarrow} N(0,1) \]

该式包含未知参数\(p\),无法直接计算。由Slutsky定理,用\(\hat{p}\)的相合估计\(\hat{p}\)替代\(p\),得到方差的相合估计:

\[\hat{\sigma}^2 = \frac{\hat{p}(1-\hat{p})}{n} \]

最终得到可计算的渐近枢轴量:

\[\frac{\hat{p} - p}{\sqrt{\hat{p}(1-\hat{p})/n}} \stackrel{L}{\rightarrow} N(0,1) \]

步骤3:反解得到置信区间

代入一维渐近置信区间公式,得到\(p\)\(1-\alpha\)渐近置信区间:

\[\boldsymbol{ \left[ \hat{p} - z_{1-\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}},\ \hat{p} + z_{1-\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right] } \]

补充说明:精确二次反解
若不替换\(p\),直接对不等式\(n(\bar{X}-p)^2 \leq p(1-p)z_{1-\alpha/2}^2\)展开,得到关于\(p\)的二次方程,求解可得到更精确的区间,但计算繁琐,大样本下与上述近似区间结果几乎一致,因此实际中优先使用近似区间。


(2) 数值计算与结论

已知\(n=40\),成功次数34,因此:

  1. 点估计:\(\hat{p} = 34/40 = 0.85\)\(1-\hat{p}=0.15\)
  2. 标准差估计:\(\hat{\sigma} = \sqrt{\frac{0.85 \times 0.15}{40}} = \sqrt{\frac{0.1275}{40}} \approx 0.056\)
  3. 置信水平0.95,\(\alpha=0.05\),分位数\(z_{0.975}=1.96\)\(z_{0.95}=1.645\)
双侧置信区间计算

边际误差:\(\hat{\sigma} \times z_{0.975} \approx 0.056 \times 1.96 \approx 0.11\)
区间上下限:

\[\underline{p} = 0.85 - 0.11 = 0.74,\quad \overline{p} = 0.85 + 0.11 = 0.96 \]

因此\(p\)的95%渐近置信区间为\(\boldsymbol{[0.74, 0.96]}\)

单侧置信下限计算

\[\underline{p} = 0.85 - 0.056 \times 1.645 \approx 0.757 \]

因此\(p\)的95%渐近置信下限为\(\boldsymbol{0.757}\)

方案对比结论

原方案成功率为70%(0.7),而新方案成功率的95%置信下限为0.757>0.7,说明在95%的置信水平下,新方案的成功率显著高于原方案,因此新方案更优。


例7.1.10 Poisson分布\(P(\lambda)\)参数\(\lambda\)的置信区间

题目

\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim P(\lambda)\)(Poisson分布)。
(1) 求\(\lambda\)的渐近置信区间和置信下限;
(2) 白细胞数据\(n=1008\)\(\bar{x}=2.82\),置信水平0.95,求\(\lambda\)的置信区间和置信下限。


(1) \(\lambda\)的渐近置信区间推导

步骤1:求\(\lambda\)的MLE与方差

Poisson分布的概率质量为\(f(x;\lambda)=\frac{e^{-\lambda}\lambda^x}{x!}\),似然函数求导解得\(\lambda\)的MLE:

\[\hat{\lambda} = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \]

Poisson分布的核心性质:方差=均值,即\(\text{Var}(X_1)=\lambda\),因此\(\hat{\lambda}\)的方差为:

\[\text{Var}(\hat{\lambda}) = \frac{\lambda}{n} \]

步骤2:构造渐近枢轴量

由MLE渐近正态性,\(\sqrt{n}(\hat{\lambda}-\lambda) \stackrel{L}{\rightarrow} N(0,\lambda)\),用相合估计\(\hat{\lambda}\)替代\(\lambda\),得到方差的相合估计:

\[\hat{\sigma}^2 = \frac{\hat{\lambda}}{n} \]

渐近枢轴量为:

\[\frac{\hat{\lambda} - \lambda}{\sqrt{\hat{\lambda}/n}} \stackrel{L}{\rightarrow} N(0,1) \]

步骤3:得到置信区间与置信限

代入通用公式,\(\lambda\)\(1-\alpha\)渐近置信区间为:

\[\boldsymbol{ \left[ \hat{\lambda} - z_{1-\alpha/2} \sqrt{\frac{\hat{\lambda}}{n}},\ \hat{\lambda} + z_{1-\alpha/2} \sqrt{\frac{\hat{\lambda}}{n}} \right] } \]

单侧渐近置信下限为:

\[\boldsymbol{ \underline{\lambda} = \hat{\lambda} - z_{1-\alpha} \sqrt{\frac{\hat{\lambda}}{n}} } \]


(2) 数值计算

已知\(n=1008\)\(\hat{\lambda}=\bar{x}=2.82\),置信水平0.95:

  1. 标准差估计:\(\hat{\sigma} = \sqrt{\frac{2.82}{1008}} \approx \sqrt{0.002797} \approx 0.053\)
  2. 双侧置信区间:边际误差\(0.053 \times 1.96 \approx 0.104\),区间为\(2.82 \pm 0.104\),即\(\boldsymbol{[2.72, 2.92]}\)
  3. 单侧置信下限:\(2.82 - 0.053 \times 1.645 \approx \boldsymbol{2.73}\)

结论说明:样本量\(n=1008\)极大,因此渐近置信区间非常窄,与点估计\(\hat{\lambda}=2.82\)高度接近,符合大样本下估计精度提升的规律。


例7.1.11 两个二项总体比例差\(\delta=p_1-p_2\)的置信区间

题目

\(X_1,\dots,X_n \stackrel{i.i.d.}{\sim} b(1,p_1)\)\(Y_1,\dots,Y_m \stackrel{i.i.d.}{\sim} b(1,p_2)\),两总体独立,求\(\delta=p_1-p_2\)的渐近置信区间;
(2) 甲车间50人40人全勤,乙车间40人35人全勤,置信水平0.95,求两车间出勤率之差的区间估计。


(1) 比例差\(\delta\)的渐近置信区间推导

步骤1:求参数的MLE与方差

\(p_1\)的MLE为\(\hat{p}_1 = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\)\(p_2\)的MLE为\(\hat{p}_2 = \bar{Y} = \frac{1}{m}\sum_{j=1}^m Y_j\),因此\(\delta\)的点估计为\(\hat{\delta} = \hat{p}_1 - \hat{p}_2\)

由两总体独立,\(\hat{p}_1\)\(\hat{p}_2\)独立,因此\(\hat{\delta}\)的方差为:

\[\text{Var}(\hat{\delta}) = \text{Var}(\hat{p}_1) + \text{Var}(\hat{p}_2) = \frac{p_1(1-p_1)}{n} + \frac{p_2(1-p_2)}{m} \]

步骤2:构造渐近枢轴量

由MLE的渐近正态性,\(\hat{p}_1 \stackrel{L}{\rightarrow} N(p_1, \frac{p_1(1-p_1)}{n})\)\(\hat{p}_2 \stackrel{L}{\rightarrow} N(p_2, \frac{p_2(1-p_2)}{m})\),独立正态变量的差仍为正态,因此:

\[\hat{\delta} \stackrel{L}{\rightarrow} N\left( \delta,\ \frac{p_1(1-p_1)}{n} + \frac{p_2(1-p_2)}{m} \right) \]

用相合估计\(\hat{p}_1,\hat{p}_2\)替代\(p_1,p_2\),得到方差的相合估计:

\[\hat{\sigma}^2 = \frac{\hat{p}_1(1-\hat{p}_1)}{n} + \frac{\hat{p}_2(1-\hat{p}_2)}{m} \]

渐近枢轴量为:

\[\frac{\hat{\delta} - \delta}{\hat{\sigma}} \stackrel{L}{\rightarrow} N(0,1) \]

步骤3:得到置信区间

代入通用公式,\(\delta=p_1-p_2\)\(1-\alpha\)渐近置信区间为:

\[\boldsymbol{ \left[ (\hat{p}_1-\hat{p}_2) - z_{1-\alpha/2} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n} + \frac{\hat{p}_2(1-\hat{p}_2)}{m}},\ (\hat{p}_1-\hat{p}_2) + z_{1-\alpha/2} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n} + \frac{\hat{p}_2(1-\hat{p}_2)}{m}} \right] } \]


(2) 数值计算

已知甲车间\(n=50\),全勤40人,\(\hat{p}_1=40/50=0.8\);乙车间\(m=40\),全勤35人,\(\hat{p}_2=35/40=0.875\),置信水平0.95:

  1. 点估计:\(\hat{\delta} = 0.8 - 0.875 = -0.075\)
  2. 方差估计:\(\hat{\sigma}^2 = \frac{0.8 \times 0.2}{50} + \frac{0.875 \times 0.125}{40} = 0.0032 + 0.002734 = 0.005934\),标准差\(\hat{\sigma} \approx \sqrt{0.005934} \approx 0.077\)
  3. 边际误差:\(0.077 \times 1.96 \approx 0.151\)
  4. 置信区间:\(-0.075 \pm 0.151\),即\(\boldsymbol{[-0.226, 0.076]}\)

结论说明:95%置信区间包含0,说明在0.05的显著性水平下,无法认为两车间的出勤率存在显著差异;但区间整体偏向负值,说明乙车间的出勤率大概率高于甲车间。


五、方法的核心边界与注意事项

  1. 大样本前提:该方法是渐近近似,仅当样本量\(n\)足够大时,置信区间的实际覆盖概率才接近名义水平\(1-\alpha\)。小样本下(如二项分布\(n<30\)),近似误差较大,建议使用精确区间估计方法。
  2. 相合估计要求:必须使用方差的相合估计,才能保证Slutsky定理的有效性,否则会导致极限分布偏移,置信区间覆盖概率失真。
  3. 离散分布的连续性修正:二项、Poisson等离散分布用正态近似时,小样本下可通过连续性修正提升精度,例如二项分布中,将\(\hat{p}=k/n\)修正为\(\hat{p}=(k+0.5)/n\),减少离散性带来的误差。
  4. 与精确枢轴量法的区别
    维度 精确枢轴量法 渐近分布枢轴量法
    覆盖概率 严格等于\(1-\alpha\) 近似等于\(1-\alpha\),大样本下收敛到名义水平
    适用场景 小样本、分布已知的特殊总体 大样本、离散分布、无精确分布的复杂模型
    精度 无近似误差,精度确定 存在近似误差,样本量越大误差越小

六、全知识点结构化归纳总结

表1 核心渐近枢轴量与置信区间公式汇总

参数场景 渐近枢轴量 极限分布 置信水平\(1-\alpha\)的置信区间/置信限
一维单参数\(\theta\)(通用) \(\frac{\hat{\theta}-\theta}{\hat{\sigma}}\) \(N(0,1)\) 双侧:\(\left[ \hat{\theta} \pm z_{1-\alpha/2}\hat{\sigma} \right]\)
下限:\(\hat{\theta} - z_{1-\alpha}\hat{\sigma}\)
上限:\(\hat{\theta} + z_{1-\alpha}\hat{\sigma}\)
二项分布\(b(1,p)\) \(\frac{\hat{p}-p}{\sqrt{\hat{p}(1-\hat{p})/n}}\) \(N(0,1)\) 双侧:\(\left[ \hat{p} \pm z_{1-\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right]\)
Poisson分布\(P(\lambda)\) \(\frac{\hat{\lambda}-\lambda}{\sqrt{\hat{\lambda}/n}}\) \(N(0,1)\) 双侧:\(\left[ \hat{\lambda} \pm z_{1-\alpha/2}\sqrt{\frac{\hat{\lambda}}{n}} \right]\)
两二项比例差\(\delta=p_1-p_2\) \(\frac{(\hat{p}_1-\hat{p}_2)-\delta}{\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n} + \frac{\hat{p}_2(1-\hat{p}_2)}{m}}}\) \(N(0,1)\) 双侧:\(\left[ (\hat{p}_1-\hat{p}_2) \pm z_{1-\alpha/2}\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n} + \frac{\hat{p}_2(1-\hat{p}_2)}{m}} \right]\)
\(p\)维参数向量\(\theta\) \(\hat{\boldsymbol{\Sigma}}^{-1/2}(\hat{\theta}-\theta)\) \(N(0,I_p)\) 置信域:\(\left\{ \theta: (\hat{\theta}-\theta)^T \hat{\boldsymbol{\Sigma}}^{-1} (\hat{\theta}-\theta) \leq \chi^2_{1-\alpha}(p) \right\}\)

表2 例题核心结论汇总

例题编号 分布场景 样本条件 置信水平 核心结果
例7.1.9 二项分布成功率 \(n=40\),34次成功 0.95 双侧置信区间\([0.74,0.96]\),置信下限0.757,新方案优于原方案
例7.1.10 Poisson分布均值 \(n=1008\)\(\bar{x}=2.82\) 0.95 双侧置信区间\([2.72,2.92]\),置信下限2.73
例7.1.11 两二项比例差 \(n=50,\hat{p}_1=0.8\);乙\(m=40,\hat{p}_2=0.875\) 0.95 比例差置信区间\([-0.226,0.076]\),无显著差异,乙车间出勤率大概率更高

表3 方法核心定理与作用

定理名称 核心内容 在本方法中的作用
MLE渐近正态性 正则条件下,\(\sqrt{n}(\hat{\theta}-\theta) \stackrel{L}{\rightarrow} N(0,i^{-1}(\theta))\) 提供大样本下估计量的渐近分布,是构造渐近枢轴量的核心基础
Slutsky定理 \(T_n\stackrel{L}{\rightarrow}T, S_n\stackrel{P}{\rightarrow}c\),则\(S_nT_n\stackrel{L}{\rightarrow}cT\) 用相合估计替代枢轴量中的未知参数,不改变极限分布,得到可计算的实用枢轴量
中心极限定理 i.i.d.样本均值\(\sqrt{n}(\bar{X}-\mu) \stackrel{L}{\rightarrow} N(0,\sigma^2)\) 为二项、Poisson等分布的样本均值提供渐近正态性,是MLE渐近正态性的特例

似然置信域 深度讲解与完整推导

作为深耕数理统计领域60余年的研究员,我将从核心原理、理论基石、三大统计量的完整推导、例题逐步骤拆解、方法对比与结构化总结五个维度,系统讲解似然置信域的完整知识体系,打通其与前序渐近正态置信区间的内在联系,确保每一步推导有依据、无跳步。


一、似然置信域的核心背景与本质

1. 方法定位

似然置信域是大样本下参数区间估计的核心方法,与前序的渐近正态置信域完全同源,均基于极大似然估计(MLE)的大样本性质,二者的核心区别在于:

  • 渐近正态置信域:直接利用MLE的渐近正态性(一维正态分布)构造枢轴量,更适合一维单参数场景;
  • 似然置信域:利用似然比、Score、Wald三大统计量的渐近卡方性构造渐近枢轴量,本质是渐近正态统计量的“平方”,更适合多参数、子集参数的复杂场景。

2. 核心优势

似然置信域完美解决了渐近正态方法在多参数场景的局限性:

  • 可直接构造子集参数的置信域(仅关心部分参数时,无需对冗余参数做额外处理);
  • 似然比统计量具有参数变换不变性(对参数做可逆变换后,置信域结果完全一致,Wald统计量不具备该性质);
  • 大样本下,三大统计量的极限分布完全等价,覆盖概率均收敛到名义水平\(1-\alpha\)

二、理论基石:三大统计量的渐近卡方性

似然置信域的所有推导均基于Wilks定理(似然比渐近卡方性),以及其衍生的Score、Wald统计量的渐近性质,先明确核心定理与定义。

前置核心定义

\(X_1,X_2,\dots,X_n\)独立同分布,总体分布族为\(\{f(x,\theta), \theta \in \Theta\}\)\(\theta\)\(p\)维未知参数,定义:

  1. 对数似然函数\(l(\theta) = \sum_{i=1}^n \log f(X_i;\theta)\),衡量参数\(\theta\)对样本的拟合程度;
  2. 得分函数(Score函数)\(U(\theta) = \frac{\partial l(\theta)}{\partial \theta}\),对数似然关于参数的一阶导数,\(E_\theta[U(\theta)]=0\)
  3. Fisher信息矩阵\(I(\theta) = \text{Var}_\theta(U(\theta)) = -E_\theta\left[ \frac{\partial^2 l(\theta)}{\partial \theta \partial \theta^T} \right]\),衡量样本中包含的关于参数\(\theta\)的信息量;
  4. 参数的MLE\(\hat{\theta}\),满足\(l(\hat{\theta}) = \max_{\theta \in \Theta} l(\theta)\),即对数似然函数的最大值点。

定理1:Wilks定理(似然比统计量的渐近卡方性)

在分布族的正则条件下,似然比统计量:

\[LR(\theta) = 2\left[ l(\hat{\theta}) - l(\theta) \right] \]

满足依分布收敛:

\[LR(\theta) \stackrel{L}{\rightarrow} \chi^2(p), \quad \forall \theta \in \Theta \]

其中\(\chi^2(p)\)为自由度\(p\)的卡方分布,自由度等于待估参数的维度。

核心解读

  • \(l(\hat{\theta})\)是对数似然的最大值,因此\(LR(\theta) \geq 0\)\(\theta\)离MLE\(\hat{\theta}\)越远,\(LR(\theta)\)越大,完美符合“置信域是MLE附近的合理参数集合”的逻辑;
  • \(LR(\theta)\)的极限分布与未知参数\(\theta\)无关,因此\(LR(\theta)\)渐近枢轴量,这是构造置信域的核心前提。

定理2:Score统计量的渐近卡方性

得分统计量(Score统计量)定义为:

\[SC(\theta) = U(\theta)^T I(\theta)^{-1} U(\theta) \]

在正则条件下,满足依分布收敛:

\[SC(\theta) \stackrel{L}{\rightarrow} \chi^2(p), \quad \forall \theta \in \Theta \]

核心解读

  • 无需计算MLE\(\hat{\theta}\),仅需计算得分函数和Fisher信息,在假设检验场景中更具优势;
  • 极限分布与\(\theta\)无关,同样可作为渐近枢轴量构造置信域。

定理3:Wald统计量的渐近卡方性

Wald统计量定义为:

\[WD(\theta) = (\hat{\theta} - \theta)^T I(\hat{\theta}) (\hat{\theta} - \theta) \]

其中\(I(\hat{\theta})\)是Fisher信息矩阵在MLE\(\hat{\theta}\)处的估计值。在正则条件下,满足依分布收敛:

\[WD(\theta) \stackrel{L}{\rightarrow} \chi^2(p), \quad \forall \theta \in \Theta \]

核心解读

  • 一维参数下,Wald统计量是前序渐近正态枢轴量的平方,与渐近正态置信区间完全等价;
  • 仅需计算一次MLE和Fisher信息,计算量最小,是实际应用中最常用的方法。

定理4:子集参数的渐近卡方性

若参数可拆分为\(\theta = (\theta_1, \theta_2)\),其中\(\theta_1\)\(p_1\)感兴趣参数\(\theta_2\)\(p_2\)冗余参数,记\(\tilde{\theta}_2(\theta_1)\)为给定\(\theta_1\)\(\theta_2\)的条件MLE,则子集似然比统计量:

\[LR(\theta_1) = 2\left[ l(\hat{\theta}) - l(\theta_1, \tilde{\theta}_2(\theta_1)) \right] \]

满足依分布收敛:

\[LR(\theta_1) \stackrel{L}{\rightarrow} \chi^2(p_1), \quad \forall \theta \in \Theta \]

Score、Wald统计量可同理推广到子集参数场景,极限分布自由度均为感兴趣参数的维度\(p_1\)


三、似然置信域的通用构造步骤(三大统计量通用)

以似然比统计量为例,构造置信域的核心步骤可推广到Score、Wald统计量:

  1. 构造渐近枢轴量:基于MLE构造\(LR(\theta)\),利用Wilks定理确定其极限分布\(\chi^2(p)\),该分布与未知参数无关;
  2. 确定分位数:取卡方分布的\(1-\alpha\)分位数\(\chi^2_{1-\alpha}(p)\),满足\(P(\chi^2(p) \leq \chi^2_{1-\alpha}(p))=1-\alpha\),大样本下近似有:

    \[P_\theta\left\{ LR(\theta) \leq \chi^2_{1-\alpha}(p) \right\} = 1-\alpha \]

  3. 反解得到置信域:将\(LR(\theta)\)的表达式代入不等式,整理得到参数\(\theta\)的取值范围,即为水平\(1-\alpha\)的似然置信域。

四、核心例题的逐步骤完整推导

例7.1.12 Poisson分布\(P(\lambda)\)的似然、Score、Wald置信区间

题目

\(X_1,X_2,\dots,X_n\)独立同分布,\(X_1 \sim P(\lambda)\)(Poisson分布),求\(\lambda\)的似然置信区间,以及基于Score、Wald统计量的置信区间。


步骤1:写出样本分布与对数似然函数

Poisson分布的概率质量函数为:

\[f(x;\lambda) = \frac{e^{-\lambda} \lambda^x}{x!}, \quad x=0,1,2,\dots \]

样本联合密度为:

\[f(x;\lambda) = \prod_{i=1}^n \frac{e^{-\lambda} \lambda^{x_i}}{x_i!} = e^{-n\lambda} \cdot \frac{\lambda^{\sum_{i=1}^n x_i}}{\prod_{i=1}^n x_i!} \]

令充分统计量\(T = \sum_{i=1}^n X_i\),则对数似然函数为:

\[l(\lambda) = -n\lambda + T \log \lambda - \log\left( \prod_{i=1}^n x_i! \right) \]

其中最后一项与\(\lambda\)无关,求导时会消去。


步骤2:求\(\lambda\)的MLE与Fisher信息

  1. 求MLE:对\(l(\lambda)\)求一阶导数(得分函数):

    \[U(\lambda) = \frac{\partial l(\lambda)}{\partial \lambda} = -n + \frac{T}{\lambda} \]

    令导数为0,解得\(\lambda\)的MLE:

    \[\hat{\lambda} = \frac{T}{n} = \bar{X} \]

  2. 求Fisher信息:对得分函数求二阶导数:

    \[\frac{\partial^2 l(\lambda)}{\partial \lambda^2} = -\frac{T}{\lambda^2} \]

    Fisher信息为二阶导数负的期望,结合\(E(T)=n\lambda\),得:

    \[I(\lambda) = -E\left[ \frac{\partial^2 l(\lambda)}{\partial \lambda^2} \right] = \frac{E(T)}{\lambda^2} = \frac{n}{\lambda} \]


步骤3:推导似然比统计量与置信区间

\(\hat{\lambda}=T/n\)代入对数似然函数,得到最大值:

\[l(\hat{\lambda}) = -n \cdot \frac{T}{n} + T \log\left( \frac{T}{n} \right) - \text{常数项} = -T + T\log\left( \frac{T}{n} \right) - \text{常数项} \]

因此似然比统计量为:

\[LR(\lambda) = 2\left[ l(\hat{\lambda}) - l(\lambda) \right] = 2\left[ T\log\left( \frac{T}{n\lambda} \right) - (T - n\lambda) \right] \]

置信区间构造
大样本下\(LR(\lambda) \sim \chi^2(1)\),因此\(\lambda\)的水平\(1-\alpha\)似然置信区间为满足以下不等式的所有\(\lambda\)的集合:

\[2\left[ T\log\left( \frac{T}{n\lambda} \right) - (T - n\lambda) \right] \leq \chi^2_{1-\alpha}(1) \]

该式为关于\(\lambda\)的非线性不等式,需通过数值方法求解,因此教材中提到“反解起来比较麻烦”。


步骤4:推导Score统计量与置信区间

将得分函数\(U(\lambda)=\frac{T}{\lambda}-n\)、Fisher信息\(I(\lambda)=n/\lambda\)代入Score统计量定义,得:

\[SC(\lambda) = U(\lambda)^T I(\lambda)^{-1} U(\lambda) = \left( \frac{T}{\lambda} - n \right)^2 \cdot \frac{\lambda}{n} \]

化简后:

\[SC(\lambda) = \frac{n}{\lambda} (\hat{\lambda} - \lambda)^2 \]

置信区间构造
满足\(SC(\lambda) \leq \chi^2_{1-\alpha}(1)\)\(\lambda\)集合,即:

\[\frac{n}{\lambda} (\hat{\lambda} - \lambda)^2 \leq \chi^2_{1-\alpha}(1) \]

该式为关于\(\lambda\)的二次不等式,可通过求根公式求解,计算复杂度低于似然比方法。


步骤5:推导Wald统计量与置信区间

\(I(\lambda)=n/\lambda\)代入Wald统计量定义,在\(\hat{\lambda}\)处计算Fisher信息得\(I(\hat{\lambda})=n/\hat{\lambda}\),因此:

\[WD(\lambda) = (\hat{\lambda} - \lambda)^T I(\hat{\lambda}) (\hat{\lambda} - \lambda) = \frac{n}{\hat{\lambda}} (\hat{\lambda} - \lambda)^2 \]

置信区间构造
满足\(WD(\lambda) \leq \chi^2_{1-\alpha}(1)\)\(\lambda\)集合,即:

\[|\hat{\lambda} - \lambda| \leq z_{1-\alpha/2} \cdot \sqrt{\frac{\hat{\lambda}}{n}} \]

关键等价性:一维下\(\chi^2_{1-\alpha}(1) = z_{1-\alpha/2}^2\),因此\(\sqrt{\chi^2_{1-\alpha}(1)}=z_{1-\alpha/2}\),该区间与例7.1.10中的渐近正态置信区间完全等价,这也是教材中提到“WD产生的置信区间与渐近正态置信区间十分相似”的本质原因。


例7.1.13 非线性回归模型的似然置信域

题目

\(Y=(Y_1,Y_2,\dots,Y_n)^T \sim N(f(\theta), \sigma^2 I_n)\),其中\(f(\theta)=(f_1(\theta),f_2(\theta),\dots,f_n(\theta))^T\)为已知函数,\(\theta\)\(p\)维未知参数(\(p<n\)),求\(\theta\)的似然置信域,以及基于Score、Wald统计量的置信域。

注:该模型为经典非线性回归模型,\(Y_i = f_i(\theta) + e_i\)\(e_i \sim N(0,\sigma^2)\)独立同分布。


步骤1:写出对数似然函数

多元正态分布的密度函数为:

\[f(y;\theta,\sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left( -\frac{1}{2\sigma^2} \|Y - f(\theta)\|^2 \right) \]

定义残差向量\(e(\theta) = Y - f(\theta)\),残差平方和\(S(\theta) = \|e(\theta)\|^2 = e(\theta)^T e(\theta)\),则对数似然函数为:

\[l(\theta,\sigma^2) = -\frac{n}{2} \log(2\pi\sigma^2) - \frac{S(\theta)}{2\sigma^2} \]


步骤2:求\(\theta\)的MLE

\(\sigma^2\)求导,得到给定\(\theta\)\(\sigma^2\)的条件MLE:

\[\frac{\partial l}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{S(\theta)}{2\sigma^4} = 0 \implies \hat{\sigma}^2(\theta) = \frac{S(\theta)}{n} \]

将其代入对数似然,得到轮廓似然函数:

\[l_p(\theta) = -\frac{n}{2}\left( \log(2\pi/n) + 1 \right) - \frac{n}{2}\log S(\theta) \]

最大化轮廓似然等价于最小化残差平方和\(S(\theta)\),因此\(\theta\)的MLE\(\hat{\theta}\)就是非线性最小二乘估计,满足\(S(\hat{\theta}) = \min_{\theta} S(\theta)\)


步骤3:推导似然比统计量与置信域

\(\sigma^2\)已知时,对数似然的最大值为:

\[l(\hat{\theta},\sigma^2) = -\frac{n}{2}\log(2\pi\sigma^2) - \frac{S(\hat{\theta})}{2\sigma^2} \]

任意\(\theta\)对应的对数似然为:

\[l(\theta,\sigma^2) = -\frac{n}{2}\log(2\pi\sigma^2) - \frac{S(\theta)}{2\sigma^2} \]

因此似然比统计量为:

\[LR(\theta) = 2\left[ l(\hat{\theta},\sigma^2) - l(\theta,\sigma^2) \right] = \frac{S(\theta) - S(\hat{\theta})}{\sigma^2} \]

其渐近分布为\(\chi^2(p)\)

置信域构造
\(\sigma^2\)已知时,\(\theta\)的水平\(1-\alpha\)似然置信域为:

\[C_1(Y) = \left\{ \theta: S(\theta) - S(\hat{\theta}) \leq \sigma^2 \chi^2_{1-\alpha}(p) \right\} \]

\(\sigma^2\)未知时,用其相合估计\(\hat{\sigma}^2 = \frac{S(\hat{\theta})}{n-p}\)(无偏估计)代替,根据Slutsky定理,渐近分布不变,置信域为:

\[C_1(Y) = \left\{ \theta: S(\theta) - S(\hat{\theta}) \leq \hat{\sigma}^2 \chi^2_{1-\alpha}(p) \right\} \]


步骤4:推导Score统计量与置信域

  1. 求得分函数:对对数似然关于\(\theta\)求导,定义雅可比矩阵\(V(\theta) = \frac{\partial f(\theta)}{\partial \theta^T}\)\(n \times p\)矩阵,第\(i\)行为\(\frac{\partial f_i(\theta)}{\partial \theta^T}\)),则:

    \[U(\theta) = \frac{\partial l}{\partial \theta} = \frac{1}{\sigma^2} V(\theta)^T e(\theta) \]

  2. 求Fisher信息矩阵:对得分函数求二阶导并取期望,得:

    \[I(\theta) = \frac{1}{\sigma^2} V(\theta)^T V(\theta) \]

  3. Score统计量:代入定义得:

    \[SC(\theta) = U(\theta)^T I(\theta)^{-1} U(\theta) = \frac{1}{\sigma^2} e(\theta)^T P_V(\theta) e(\theta) \]

    其中\(P_V(\theta) = V(\theta)(V(\theta)^T V(\theta))^{-1} V(\theta)^T\)为投影矩阵,渐近分布为\(\chi^2(p)\)

置信域构造

\[C_2(Y) = \left\{ \theta: e(\theta)^T P_V(\theta) e(\theta) \leq \hat{\sigma}^2 \chi^2_{1-\alpha}(p) \right\} \]


步骤5:推导Wald统计量与置信域

将Fisher信息在\(\hat{\theta}\)处取值,代入Wald统计量定义得:

\[WD(\theta) = \frac{1}{\sigma^2} (\hat{\theta} - \theta)^T V(\hat{\theta})^T V(\hat{\theta}) (\hat{\theta} - \theta) \]

渐近分布为\(\chi^2(p)\)

置信域构造

\[C_3(Y) = \left\{ \theta: (\hat{\theta} - \theta)^T V(\hat{\theta})^T V(\hat{\theta}) (\hat{\theta} - \theta) \leq \hat{\sigma}^2 \chi^2_{1-\alpha}(p) \right\} \]


五、三大统计量的核心对比与适用场景

统计量 核心定义 渐近分布 核心优点 核心缺点 适用场景
似然比LR \(2[l(\hat{\theta})-l(\theta)]\) \(\chi^2(p)\) 1. 参数变换不变性;2. 大样本下表现最优;3. 适合子集参数估计 1. 需计算每个\(\theta\)的条件MLE;2. 非线性不等式反解麻烦 多参数、子集参数的区间估计,对参数变换有一致性要求的场景
得分Score \(U(\theta)^T I(\theta)^{-1} U(\theta)\) \(\chi^2(p)\) 1. 无需计算MLE;2. 原假设下计算简便;3. 参数变换不变性优于Wald 1. 需计算每个\(\theta\)的Fisher信息;2. 反解复杂度高于Wald 假设检验场景,无需计算MLE的快速区间估计
Wald \((\hat{\theta}-\theta)^T I(\hat{\theta})(\hat{\theta}-\theta)\) \(\chi^2(p)\) 1. 计算最简单,仅需一次MLE;2. 一维下与渐近正态区间完全等价 1. 无参数变换不变性;2. 小样本下表现差;3. 极端值下结果不稳定 大样本一维参数估计,计算效率优先的场景

六、全知识点结构化归纳总结

表1 似然置信域核心公式汇总

参数场景 统计量 渐近分布 水平\(1-\alpha\)的置信域/区间
\(p\)维全参数\(\theta\) 似然比\(LR(\theta)=2[l(\hat{\theta})-l(\theta)]\) \(\chi^2(p)\) \(\{ \theta: 2[l(\hat{\theta})-l(\theta)] \leq \chi^2_{1-\alpha}(p) \}\)
\(p\)维全参数\(\theta\) Score\(SC(\theta)=U(\theta)^T I(\theta)^{-1} U(\theta)\) \(\chi^2(p)\) \(\{ \theta: SC(\theta) \leq \chi^2_{1-\alpha}(p) \}\)
\(p\)维全参数\(\theta\) Wald\(WD(\theta)=(\hat{\theta}-\theta)^T I(\hat{\theta})(\hat{\theta}-\theta)\) \(\chi^2(p)\) \(\{ \theta: WD(\theta) \leq \chi^2_{1-\alpha}(p) \}\)
\(p_1\)维子集参数\(\theta_1\) 子集似然比\(LR(\theta_1)=2[l(\hat{\theta})-l(\theta_1,\tilde{\theta}_2(\theta_1))]\) \(\chi^2(p_1)\) \(\{ \theta_1: LR(\theta_1) \leq \chi^2_{1-\alpha}(p_1) \}\)
一维Poisson参数\(\lambda\) Wald统计量 \(\chi^2(1)\) \(\left[ \hat{\lambda} \pm z_{1-\alpha/2} \sqrt{\frac{\hat{\lambda}}{n}} \right]\)
非线性回归\(p\)维参数\(\theta\) 似然比统计量 \(\chi^2(p)\) \(\{ \theta: S(\theta) \leq S(\hat{\theta}) + \hat{\sigma}^2 \chi^2_{1-\alpha}(p) \}\)

表2 似然置信域与渐近正态置信域的核心联系

维度 渐近正态置信域 似然置信域(Wald统计量)
理论基础 MLE的渐近正态性 MLE渐近正态性的平方形式
一维枢轴量 \(\frac{\hat{\theta}-\theta}{\hat{\sigma}} \stackrel{L}{\rightarrow} N(0,1)\) \(\left( \frac{\hat{\theta}-\theta}{\hat{\sigma}} \right)^2 \stackrel{L}{\rightarrow} \chi^2(1)\)
置信区间 \(\hat{\theta} \pm z_{1-\alpha/2}\hat{\sigma}\) 与渐近正态区间完全等价
适用场景 一维单参数大样本估计 一维、多维、子集参数大样本估计

表3 例题核心结论汇总

例题编号 分布场景 核心结果
例7.1.12 Poisson分布\(P(\lambda)\) 1. 似然比区间需解非线性不等式;2. Score区间需解二次不等式;3. Wald区间与渐近正态区间完全等价,计算最简便
例7.1.13 非线性回归模型 1. 似然置信域为残差平方和不超过阈值的参数集合;2. 三大统计量均可构造渐近置信域,大样本下等价;3. \(\sigma^2\)未知时可用相合估计替代,不改变渐近分布

posted on 2026-02-27 19:07  Indian_Mysore  阅读(1)  评论(0)    收藏  举报

导航