7.1.3基于渐近分布的枢轴量法
基于渐近分布的枢轴量法 深度讲解与完整推导
作为深耕数理统计领域多年的研究员,我将从方法背景、理论基石、核心公式推导、例题逐步骤拆解、方法边界与注意事项、结构化总结六个维度,完整讲解大样本下基于渐近分布的枢轴量法,确保每一步逻辑闭环、推导无跳步,彻底解决大样本区间估计的核心难点。
一、方法核心背景:为什么需要渐近分布的枢轴量法?
前序讲解的精确枢轴量法,要求枢轴量的精确概率分布完全已知且与未知参数无关,仅适用于正态分布、指数分布等少数特殊分布的小样本场景。但在实际应用中,我们面临大量无法获取精确分布的场景:
- 离散型分布(二项分布、Poisson分布等):分布函数、分位数计算繁琐,无法构造精确枢轴量;
- 非正态连续型总体:无现成的精确分布结论,小样本下分布难以推导;
- 复杂参数模型:极大似然估计(MLE)仅能保证渐近性质,无法得到小样本精确分布。
此时,我们利用大样本下的渐近正态性(中心极限定理、MLE的渐近正态性)构造渐近枢轴量——即枢轴量的极限分布已知且与未知参数无关,进而得到近似满足覆盖概率要求的渐近置信区间/置信域。
二、理论基石:核心定理与概念铺垫
本方法的所有推导均基于以下3个核心定理,必须先明确其内涵:
1. MLE的渐近正态性(核心支撑)
在参数分布族的正则条件(分布支撑与参数无关、密度函数关于参数可导、Fisher信息存在且有限等)下,设\(X_1,X_2,\dots,X_n\)独立同分布,\(\hat{\theta}\)是未知参数\(\theta\)的极大似然估计,则:
- 符号说明:
- \(\stackrel{L}{\rightarrow}\):依分布收敛,即\(n\to\infty\)时,统计量的分布收敛到正态分布;
- \(i(\theta)\):单个样本的Fisher信息,衡量样本中包含的关于参数\(\theta\)的信息量,定义为\(i(\theta) = E_\theta\left[ \left( \frac{\partial \ln f(X;\theta)}{\partial \theta} \right)^2 \right]\);
- \(I(\theta) = n i(\theta)\):样本的Fisher信息,随样本量\(n\)线性增长。
- 核心结论:大样本下,MLE\(\hat{\theta}\)服从以真实参数\(\theta\)为均值、以Fisher信息的逆为方差的渐近正态分布。
2. Slutsky定理(“去1律”,实际应用的关键)
设随机序列\(T_n \stackrel{L}{\rightarrow} T\),\(S_n \stackrel{P}{\rightarrow} c\)(\(c\)为非零常数,\(\stackrel{P}{\rightarrow}\)为依概率收敛),则:
- 核心作用:当渐近枢轴量中包含未知参数时,可用该参数的相合估计替代,不改变极限分布,从而得到可实际计算的枢轴量。
3. 多元正态的渐近推广
若\(\theta\)是\(p\)维参数向量,则MLE的渐近正态性推广为:
其中\(\boldsymbol{i}(\theta)\)是\(p\)阶Fisher信息矩阵,极限分布为\(p\)维标准正态分布\(N(0, I_p)\)(\(I_p\)为\(p\)阶单位矩阵)。
三、渐近正态置信域的完整推导
我们分多维参数通用形式和一维参数实用形式两步推导,先讲清通用理论,再聚焦实际应用最广的一维场景。
3.1 多维参数的渐近枢轴量构造
枢轴量1:基于Fisher信息的渐近枢轴量
由MLE的渐近正态性:\(\sqrt{n}(\hat{\theta} - \theta) \stackrel{L}{\rightarrow} N\left(0, \boldsymbol{i}^{-1}(\theta)\right)\),对其做标准化变换:
其中\(\boldsymbol{i}^{\frac{1}{2}}(\theta)\)是Fisher信息矩阵的平方根矩阵,满足\(\boldsymbol{i}^{\frac{1}{2}}(\theta) \cdot \boldsymbol{i}^{\frac{1}{2}}(\theta) = \boldsymbol{i}(\theta)\)。
分布推导:
正态分布的线性变换仍为正态分布,变换后的方差矩阵为:
因此\(G(X,\theta) \stackrel{L}{\rightarrow} N(0, I_p)\),极限分布与未知参数\(\theta\)无关,是渐近枢轴量。
枢轴量2:基于方差的渐近枢轴量
记\(\text{Var}_\theta(\hat{\theta}) = \boldsymbol{\Sigma}\),由MLE的渐近正态性,\(\boldsymbol{\Sigma} = \frac{\boldsymbol{i}^{-1}(\theta)}{n} = \boldsymbol{I}^{-1}(\theta)\),因此构造:
同理可得\(G_1(X,\theta) \stackrel{L}{\rightarrow} N(0, I_p)\),极限分布与\(\theta\)无关,也是渐近枢轴量。
枢轴量3:可实际计算的实用渐近枢轴量
上述两个枢轴量均包含未知参数\(\theta\),无法直接计算。设\(\hat{\boldsymbol{\Sigma}}\)是\(\boldsymbol{\Sigma} = \text{Var}_\theta(\hat{\theta})\)的相合估计(即\(\hat{\boldsymbol{\Sigma}} \stackrel{P}{\rightarrow} \boldsymbol{\Sigma}\)),由Slutsky定理:
- 核心优势:\(\hat{\boldsymbol{\Sigma}}\)仅由样本计算,不含未知参数,极限分布仍为标准正态,是实际应用中唯一可落地的渐近枢轴量。
3.2 一维参数的渐近置信区间(核心实用形式)
当\(\theta\)为一维单参数时,上述推导可大幅简化,也是实际应用中90%场景的通用形式。
步骤1:构造一维渐近枢轴量
设\(\hat{\theta}\)是\(\theta\)的MLE,\(\text{Var}_\theta(\hat{\theta}) = \sigma^2\),\(\hat{\sigma}^2\)是\(\sigma^2\)的相合估计,则由上述结论:
该式是一维大样本区间估计的核心公式,极限分布为标准正态,与\(\theta\)无关,是可计算的渐近枢轴量。
步骤2:确定分位数与覆盖概率
标准正态分布是对称分布,取等尾分位数\(z_{1-\alpha/2}\)(标准正态分布的\(1-\alpha/2\)下分位数,如\(\alpha=0.05\)时\(z_{0.975}=1.96\)),则当\(n\)足够大时,近似有:
步骤3:不等式反解得到置信区间
对绝对值不等式做等价变形:
两边乘\(\hat{\sigma}\),再移项反转不等号,最终得到:
因此,一维参数\(\theta\)的渐近正态置信区间为:
单侧置信限的推导
同理,取单侧分位数\(z_{1-\alpha}\),可得到:
- 渐近置信下限:\(\boldsymbol{ \underline{\theta} = \hat{\theta} - \hat{\sigma} z_{1-\alpha} }\),满足\(P_\theta(\theta \geq \underline{\theta}) \approx 1-\alpha\)
- 渐近置信上限:\(\boldsymbol{ \overline{\theta} = \hat{\theta} + \hat{\sigma} z_{1-\alpha} }\),满足\(P_\theta(\theta \leq \overline{\theta}) \approx 1-\alpha\)
四、核心例题的逐步骤完整推导
例7.1.9 二项分布\(b(1,p)\)成功概率\(p\)的置信区间
题目
设\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim b(1,p)\)(0-1分布)。
(1) 求\(p\)的渐近置信区间;
(2) 新方案40次试验34次成功,置信水平0.95,求\(p\)的置信区间、置信下限,判断是否优于原方案(成功率70%)。
(1) \(p\)的渐近置信区间推导
步骤1:求\(p\)的MLE与方差
0-1分布的概率质量为\(f(x;p)=p^x(1-p)^{1-x}\),似然函数为:
取对数求导并令导数为0,解得\(p\)的极大似然估计:
由0-1分布的方差性质,\(\text{Var}(X_1)=p(1-p)\),因此\(\hat{p}\)的方差为:
步骤2:构造渐近枢轴量
由中心极限定理(或MLE渐近正态性),\(\sqrt{n}(\hat{p}-p) \stackrel{L}{\rightarrow} N(0,p(1-p))\),标准化得:
该式包含未知参数\(p\),无法直接计算。由Slutsky定理,用\(\hat{p}\)的相合估计\(\hat{p}\)替代\(p\),得到方差的相合估计:
最终得到可计算的渐近枢轴量:
步骤3:反解得到置信区间
代入一维渐近置信区间公式,得到\(p\)的\(1-\alpha\)渐近置信区间:
补充说明:精确二次反解
若不替换\(p\),直接对不等式\(n(\bar{X}-p)^2 \leq p(1-p)z_{1-\alpha/2}^2\)展开,得到关于\(p\)的二次方程,求解可得到更精确的区间,但计算繁琐,大样本下与上述近似区间结果几乎一致,因此实际中优先使用近似区间。
(2) 数值计算与结论
已知\(n=40\),成功次数34,因此:
- 点估计:\(\hat{p} = 34/40 = 0.85\),\(1-\hat{p}=0.15\)
- 标准差估计:\(\hat{\sigma} = \sqrt{\frac{0.85 \times 0.15}{40}} = \sqrt{\frac{0.1275}{40}} \approx 0.056\)
- 置信水平0.95,\(\alpha=0.05\),分位数\(z_{0.975}=1.96\),\(z_{0.95}=1.645\)
双侧置信区间计算
边际误差:\(\hat{\sigma} \times z_{0.975} \approx 0.056 \times 1.96 \approx 0.11\)
区间上下限:
因此\(p\)的95%渐近置信区间为\(\boldsymbol{[0.74, 0.96]}\)。
单侧置信下限计算
因此\(p\)的95%渐近置信下限为\(\boldsymbol{0.757}\)。
方案对比结论
原方案成功率为70%(0.7),而新方案成功率的95%置信下限为0.757>0.7,说明在95%的置信水平下,新方案的成功率显著高于原方案,因此新方案更优。
例7.1.10 Poisson分布\(P(\lambda)\)参数\(\lambda\)的置信区间
题目
设\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim P(\lambda)\)(Poisson分布)。
(1) 求\(\lambda\)的渐近置信区间和置信下限;
(2) 白细胞数据\(n=1008\),\(\bar{x}=2.82\),置信水平0.95,求\(\lambda\)的置信区间和置信下限。
(1) \(\lambda\)的渐近置信区间推导
步骤1:求\(\lambda\)的MLE与方差
Poisson分布的概率质量为\(f(x;\lambda)=\frac{e^{-\lambda}\lambda^x}{x!}\),似然函数求导解得\(\lambda\)的MLE:
Poisson分布的核心性质:方差=均值,即\(\text{Var}(X_1)=\lambda\),因此\(\hat{\lambda}\)的方差为:
步骤2:构造渐近枢轴量
由MLE渐近正态性,\(\sqrt{n}(\hat{\lambda}-\lambda) \stackrel{L}{\rightarrow} N(0,\lambda)\),用相合估计\(\hat{\lambda}\)替代\(\lambda\),得到方差的相合估计:
渐近枢轴量为:
步骤3:得到置信区间与置信限
代入通用公式,\(\lambda\)的\(1-\alpha\)渐近置信区间为:
单侧渐近置信下限为:
(2) 数值计算
已知\(n=1008\),\(\hat{\lambda}=\bar{x}=2.82\),置信水平0.95:
- 标准差估计:\(\hat{\sigma} = \sqrt{\frac{2.82}{1008}} \approx \sqrt{0.002797} \approx 0.053\)
- 双侧置信区间:边际误差\(0.053 \times 1.96 \approx 0.104\),区间为\(2.82 \pm 0.104\),即\(\boldsymbol{[2.72, 2.92]}\)
- 单侧置信下限:\(2.82 - 0.053 \times 1.645 \approx \boldsymbol{2.73}\)
结论说明:样本量\(n=1008\)极大,因此渐近置信区间非常窄,与点估计\(\hat{\lambda}=2.82\)高度接近,符合大样本下估计精度提升的规律。
例7.1.11 两个二项总体比例差\(\delta=p_1-p_2\)的置信区间
题目
设\(X_1,\dots,X_n \stackrel{i.i.d.}{\sim} b(1,p_1)\),\(Y_1,\dots,Y_m \stackrel{i.i.d.}{\sim} b(1,p_2)\),两总体独立,求\(\delta=p_1-p_2\)的渐近置信区间;
(2) 甲车间50人40人全勤,乙车间40人35人全勤,置信水平0.95,求两车间出勤率之差的区间估计。
(1) 比例差\(\delta\)的渐近置信区间推导
步骤1:求参数的MLE与方差
\(p_1\)的MLE为\(\hat{p}_1 = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\),\(p_2\)的MLE为\(\hat{p}_2 = \bar{Y} = \frac{1}{m}\sum_{j=1}^m Y_j\),因此\(\delta\)的点估计为\(\hat{\delta} = \hat{p}_1 - \hat{p}_2\)。
由两总体独立,\(\hat{p}_1\)与\(\hat{p}_2\)独立,因此\(\hat{\delta}\)的方差为:
步骤2:构造渐近枢轴量
由MLE的渐近正态性,\(\hat{p}_1 \stackrel{L}{\rightarrow} N(p_1, \frac{p_1(1-p_1)}{n})\),\(\hat{p}_2 \stackrel{L}{\rightarrow} N(p_2, \frac{p_2(1-p_2)}{m})\),独立正态变量的差仍为正态,因此:
用相合估计\(\hat{p}_1,\hat{p}_2\)替代\(p_1,p_2\),得到方差的相合估计:
渐近枢轴量为:
步骤3:得到置信区间
代入通用公式,\(\delta=p_1-p_2\)的\(1-\alpha\)渐近置信区间为:
(2) 数值计算
已知甲车间\(n=50\),全勤40人,\(\hat{p}_1=40/50=0.8\);乙车间\(m=40\),全勤35人,\(\hat{p}_2=35/40=0.875\),置信水平0.95:
- 点估计:\(\hat{\delta} = 0.8 - 0.875 = -0.075\)
- 方差估计:\(\hat{\sigma}^2 = \frac{0.8 \times 0.2}{50} + \frac{0.875 \times 0.125}{40} = 0.0032 + 0.002734 = 0.005934\),标准差\(\hat{\sigma} \approx \sqrt{0.005934} \approx 0.077\)
- 边际误差:\(0.077 \times 1.96 \approx 0.151\)
- 置信区间:\(-0.075 \pm 0.151\),即\(\boldsymbol{[-0.226, 0.076]}\)
结论说明:95%置信区间包含0,说明在0.05的显著性水平下,无法认为两车间的出勤率存在显著差异;但区间整体偏向负值,说明乙车间的出勤率大概率高于甲车间。
五、方法的核心边界与注意事项
- 大样本前提:该方法是渐近近似,仅当样本量\(n\)足够大时,置信区间的实际覆盖概率才接近名义水平\(1-\alpha\)。小样本下(如二项分布\(n<30\)),近似误差较大,建议使用精确区间估计方法。
- 相合估计要求:必须使用方差的相合估计,才能保证Slutsky定理的有效性,否则会导致极限分布偏移,置信区间覆盖概率失真。
- 离散分布的连续性修正:二项、Poisson等离散分布用正态近似时,小样本下可通过连续性修正提升精度,例如二项分布中,将\(\hat{p}=k/n\)修正为\(\hat{p}=(k+0.5)/n\),减少离散性带来的误差。
- 与精确枢轴量法的区别:
维度 精确枢轴量法 渐近分布枢轴量法 覆盖概率 严格等于\(1-\alpha\) 近似等于\(1-\alpha\),大样本下收敛到名义水平 适用场景 小样本、分布已知的特殊总体 大样本、离散分布、无精确分布的复杂模型 精度 无近似误差,精度确定 存在近似误差,样本量越大误差越小
六、全知识点结构化归纳总结
表1 核心渐近枢轴量与置信区间公式汇总
| 参数场景 | 渐近枢轴量 | 极限分布 | 置信水平\(1-\alpha\)的置信区间/置信限 |
|---|---|---|---|
| 一维单参数\(\theta\)(通用) | \(\frac{\hat{\theta}-\theta}{\hat{\sigma}}\) | \(N(0,1)\) | 双侧:\(\left[ \hat{\theta} \pm z_{1-\alpha/2}\hat{\sigma} \right]\) 下限:\(\hat{\theta} - z_{1-\alpha}\hat{\sigma}\) 上限:\(\hat{\theta} + z_{1-\alpha}\hat{\sigma}\) |
| 二项分布\(b(1,p)\) | \(\frac{\hat{p}-p}{\sqrt{\hat{p}(1-\hat{p})/n}}\) | \(N(0,1)\) | 双侧:\(\left[ \hat{p} \pm z_{1-\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right]\) |
| Poisson分布\(P(\lambda)\) | \(\frac{\hat{\lambda}-\lambda}{\sqrt{\hat{\lambda}/n}}\) | \(N(0,1)\) | 双侧:\(\left[ \hat{\lambda} \pm z_{1-\alpha/2}\sqrt{\frac{\hat{\lambda}}{n}} \right]\) |
| 两二项比例差\(\delta=p_1-p_2\) | \(\frac{(\hat{p}_1-\hat{p}_2)-\delta}{\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n} + \frac{\hat{p}_2(1-\hat{p}_2)}{m}}}\) | \(N(0,1)\) | 双侧:\(\left[ (\hat{p}_1-\hat{p}_2) \pm z_{1-\alpha/2}\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n} + \frac{\hat{p}_2(1-\hat{p}_2)}{m}} \right]\) |
| \(p\)维参数向量\(\theta\) | \(\hat{\boldsymbol{\Sigma}}^{-1/2}(\hat{\theta}-\theta)\) | \(N(0,I_p)\) | 置信域:\(\left\{ \theta: (\hat{\theta}-\theta)^T \hat{\boldsymbol{\Sigma}}^{-1} (\hat{\theta}-\theta) \leq \chi^2_{1-\alpha}(p) \right\}\) |
表2 例题核心结论汇总
| 例题编号 | 分布场景 | 样本条件 | 置信水平 | 核心结果 |
|---|---|---|---|---|
| 例7.1.9 | 二项分布成功率 | \(n=40\),34次成功 | 0.95 | 双侧置信区间\([0.74,0.96]\),置信下限0.757,新方案优于原方案 |
| 例7.1.10 | Poisson分布均值 | \(n=1008\),\(\bar{x}=2.82\) | 0.95 | 双侧置信区间\([2.72,2.92]\),置信下限2.73 |
| 例7.1.11 | 两二项比例差 | 甲\(n=50,\hat{p}_1=0.8\);乙\(m=40,\hat{p}_2=0.875\) | 0.95 | 比例差置信区间\([-0.226,0.076]\),无显著差异,乙车间出勤率大概率更高 |
表3 方法核心定理与作用
| 定理名称 | 核心内容 | 在本方法中的作用 |
|---|---|---|
| MLE渐近正态性 | 正则条件下,\(\sqrt{n}(\hat{\theta}-\theta) \stackrel{L}{\rightarrow} N(0,i^{-1}(\theta))\) | 提供大样本下估计量的渐近分布,是构造渐近枢轴量的核心基础 |
| Slutsky定理 | \(T_n\stackrel{L}{\rightarrow}T, S_n\stackrel{P}{\rightarrow}c\),则\(S_nT_n\stackrel{L}{\rightarrow}cT\) | 用相合估计替代枢轴量中的未知参数,不改变极限分布,得到可计算的实用枢轴量 |
| 中心极限定理 | i.i.d.样本均值\(\sqrt{n}(\bar{X}-\mu) \stackrel{L}{\rightarrow} N(0,\sigma^2)\) | 为二项、Poisson等分布的样本均值提供渐近正态性,是MLE渐近正态性的特例 |
似然置信域 深度讲解与完整推导
作为深耕数理统计领域60余年的研究员,我将从核心原理、理论基石、三大统计量的完整推导、例题逐步骤拆解、方法对比与结构化总结五个维度,系统讲解似然置信域的完整知识体系,打通其与前序渐近正态置信区间的内在联系,确保每一步推导有依据、无跳步。
一、似然置信域的核心背景与本质
1. 方法定位
似然置信域是大样本下参数区间估计的核心方法,与前序的渐近正态置信域完全同源,均基于极大似然估计(MLE)的大样本性质,二者的核心区别在于:
- 渐近正态置信域:直接利用MLE的渐近正态性(一维正态分布)构造枢轴量,更适合一维单参数场景;
- 似然置信域:利用似然比、Score、Wald三大统计量的渐近卡方性构造渐近枢轴量,本质是渐近正态统计量的“平方”,更适合多参数、子集参数的复杂场景。
2. 核心优势
似然置信域完美解决了渐近正态方法在多参数场景的局限性:
- 可直接构造子集参数的置信域(仅关心部分参数时,无需对冗余参数做额外处理);
- 似然比统计量具有参数变换不变性(对参数做可逆变换后,置信域结果完全一致,Wald统计量不具备该性质);
- 大样本下,三大统计量的极限分布完全等价,覆盖概率均收敛到名义水平\(1-\alpha\)。
二、理论基石:三大统计量的渐近卡方性
似然置信域的所有推导均基于Wilks定理(似然比渐近卡方性),以及其衍生的Score、Wald统计量的渐近性质,先明确核心定理与定义。
前置核心定义
设\(X_1,X_2,\dots,X_n\)独立同分布,总体分布族为\(\{f(x,\theta), \theta \in \Theta\}\),\(\theta\)为\(p\)维未知参数,定义:
- 对数似然函数:\(l(\theta) = \sum_{i=1}^n \log f(X_i;\theta)\),衡量参数\(\theta\)对样本的拟合程度;
- 得分函数(Score函数):\(U(\theta) = \frac{\partial l(\theta)}{\partial \theta}\),对数似然关于参数的一阶导数,\(E_\theta[U(\theta)]=0\);
- Fisher信息矩阵:\(I(\theta) = \text{Var}_\theta(U(\theta)) = -E_\theta\left[ \frac{\partial^2 l(\theta)}{\partial \theta \partial \theta^T} \right]\),衡量样本中包含的关于参数\(\theta\)的信息量;
- 参数的MLE:\(\hat{\theta}\),满足\(l(\hat{\theta}) = \max_{\theta \in \Theta} l(\theta)\),即对数似然函数的最大值点。
定理1:Wilks定理(似然比统计量的渐近卡方性)
在分布族的正则条件下,似然比统计量:
满足依分布收敛:
其中\(\chi^2(p)\)为自由度\(p\)的卡方分布,自由度等于待估参数的维度。
核心解读:
- \(l(\hat{\theta})\)是对数似然的最大值,因此\(LR(\theta) \geq 0\);\(\theta\)离MLE\(\hat{\theta}\)越远,\(LR(\theta)\)越大,完美符合“置信域是MLE附近的合理参数集合”的逻辑;
- \(LR(\theta)\)的极限分布与未知参数\(\theta\)无关,因此\(LR(\theta)\)是渐近枢轴量,这是构造置信域的核心前提。
定理2:Score统计量的渐近卡方性
得分统计量(Score统计量)定义为:
在正则条件下,满足依分布收敛:
核心解读:
- 无需计算MLE\(\hat{\theta}\),仅需计算得分函数和Fisher信息,在假设检验场景中更具优势;
- 极限分布与\(\theta\)无关,同样可作为渐近枢轴量构造置信域。
定理3:Wald统计量的渐近卡方性
Wald统计量定义为:
其中\(I(\hat{\theta})\)是Fisher信息矩阵在MLE\(\hat{\theta}\)处的估计值。在正则条件下,满足依分布收敛:
核心解读:
- 一维参数下,Wald统计量是前序渐近正态枢轴量的平方,与渐近正态置信区间完全等价;
- 仅需计算一次MLE和Fisher信息,计算量最小,是实际应用中最常用的方法。
定理4:子集参数的渐近卡方性
若参数可拆分为\(\theta = (\theta_1, \theta_2)\),其中\(\theta_1\)是\(p_1\)维感兴趣参数,\(\theta_2\)是\(p_2\)维冗余参数,记\(\tilde{\theta}_2(\theta_1)\)为给定\(\theta_1\)时\(\theta_2\)的条件MLE,则子集似然比统计量:
满足依分布收敛:
Score、Wald统计量可同理推广到子集参数场景,极限分布自由度均为感兴趣参数的维度\(p_1\)。
三、似然置信域的通用构造步骤(三大统计量通用)
以似然比统计量为例,构造置信域的核心步骤可推广到Score、Wald统计量:
- 构造渐近枢轴量:基于MLE构造\(LR(\theta)\),利用Wilks定理确定其极限分布\(\chi^2(p)\),该分布与未知参数无关;
- 确定分位数:取卡方分布的\(1-\alpha\)分位数\(\chi^2_{1-\alpha}(p)\),满足\(P(\chi^2(p) \leq \chi^2_{1-\alpha}(p))=1-\alpha\),大样本下近似有:\[P_\theta\left\{ LR(\theta) \leq \chi^2_{1-\alpha}(p) \right\} = 1-\alpha \]
- 反解得到置信域:将\(LR(\theta)\)的表达式代入不等式,整理得到参数\(\theta\)的取值范围,即为水平\(1-\alpha\)的似然置信域。
四、核心例题的逐步骤完整推导
例7.1.12 Poisson分布\(P(\lambda)\)的似然、Score、Wald置信区间
题目
设\(X_1,X_2,\dots,X_n\)独立同分布,\(X_1 \sim P(\lambda)\)(Poisson分布),求\(\lambda\)的似然置信区间,以及基于Score、Wald统计量的置信区间。
步骤1:写出样本分布与对数似然函数
Poisson分布的概率质量函数为:
样本联合密度为:
令充分统计量\(T = \sum_{i=1}^n X_i\),则对数似然函数为:
其中最后一项与\(\lambda\)无关,求导时会消去。
步骤2:求\(\lambda\)的MLE与Fisher信息
- 求MLE:对\(l(\lambda)\)求一阶导数(得分函数):\[U(\lambda) = \frac{\partial l(\lambda)}{\partial \lambda} = -n + \frac{T}{\lambda} \]令导数为0,解得\(\lambda\)的MLE:\[\hat{\lambda} = \frac{T}{n} = \bar{X} \]
- 求Fisher信息:对得分函数求二阶导数:\[\frac{\partial^2 l(\lambda)}{\partial \lambda^2} = -\frac{T}{\lambda^2} \]Fisher信息为二阶导数负的期望,结合\(E(T)=n\lambda\),得:\[I(\lambda) = -E\left[ \frac{\partial^2 l(\lambda)}{\partial \lambda^2} \right] = \frac{E(T)}{\lambda^2} = \frac{n}{\lambda} \]
步骤3:推导似然比统计量与置信区间
将\(\hat{\lambda}=T/n\)代入对数似然函数,得到最大值:
因此似然比统计量为:
置信区间构造:
大样本下\(LR(\lambda) \sim \chi^2(1)\),因此\(\lambda\)的水平\(1-\alpha\)似然置信区间为满足以下不等式的所有\(\lambda\)的集合:
该式为关于\(\lambda\)的非线性不等式,需通过数值方法求解,因此教材中提到“反解起来比较麻烦”。
步骤4:推导Score统计量与置信区间
将得分函数\(U(\lambda)=\frac{T}{\lambda}-n\)、Fisher信息\(I(\lambda)=n/\lambda\)代入Score统计量定义,得:
化简后:
置信区间构造:
满足\(SC(\lambda) \leq \chi^2_{1-\alpha}(1)\)的\(\lambda\)集合,即:
该式为关于\(\lambda\)的二次不等式,可通过求根公式求解,计算复杂度低于似然比方法。
步骤5:推导Wald统计量与置信区间
将\(I(\lambda)=n/\lambda\)代入Wald统计量定义,在\(\hat{\lambda}\)处计算Fisher信息得\(I(\hat{\lambda})=n/\hat{\lambda}\),因此:
置信区间构造:
满足\(WD(\lambda) \leq \chi^2_{1-\alpha}(1)\)的\(\lambda\)集合,即:
关键等价性:一维下\(\chi^2_{1-\alpha}(1) = z_{1-\alpha/2}^2\),因此\(\sqrt{\chi^2_{1-\alpha}(1)}=z_{1-\alpha/2}\),该区间与例7.1.10中的渐近正态置信区间完全等价,这也是教材中提到“WD产生的置信区间与渐近正态置信区间十分相似”的本质原因。
例7.1.13 非线性回归模型的似然置信域
题目
设\(Y=(Y_1,Y_2,\dots,Y_n)^T \sim N(f(\theta), \sigma^2 I_n)\),其中\(f(\theta)=(f_1(\theta),f_2(\theta),\dots,f_n(\theta))^T\)为已知函数,\(\theta\)为\(p\)维未知参数(\(p<n\)),求\(\theta\)的似然置信域,以及基于Score、Wald统计量的置信域。
注:该模型为经典非线性回归模型,\(Y_i = f_i(\theta) + e_i\),\(e_i \sim N(0,\sigma^2)\)独立同分布。
步骤1:写出对数似然函数
多元正态分布的密度函数为:
定义残差向量\(e(\theta) = Y - f(\theta)\),残差平方和\(S(\theta) = \|e(\theta)\|^2 = e(\theta)^T e(\theta)\),则对数似然函数为:
步骤2:求\(\theta\)的MLE
对\(\sigma^2\)求导,得到给定\(\theta\)时\(\sigma^2\)的条件MLE:
将其代入对数似然,得到轮廓似然函数:
最大化轮廓似然等价于最小化残差平方和\(S(\theta)\),因此\(\theta\)的MLE\(\hat{\theta}\)就是非线性最小二乘估计,满足\(S(\hat{\theta}) = \min_{\theta} S(\theta)\)。
步骤3:推导似然比统计量与置信域
当\(\sigma^2\)已知时,对数似然的最大值为:
任意\(\theta\)对应的对数似然为:
因此似然比统计量为:
其渐近分布为\(\chi^2(p)\)。
置信域构造:
\(\sigma^2\)已知时,\(\theta\)的水平\(1-\alpha\)似然置信域为:
\(\sigma^2\)未知时,用其相合估计\(\hat{\sigma}^2 = \frac{S(\hat{\theta})}{n-p}\)(无偏估计)代替,根据Slutsky定理,渐近分布不变,置信域为:
步骤4:推导Score统计量与置信域
- 求得分函数:对对数似然关于\(\theta\)求导,定义雅可比矩阵\(V(\theta) = \frac{\partial f(\theta)}{\partial \theta^T}\)(\(n \times p\)矩阵,第\(i\)行为\(\frac{\partial f_i(\theta)}{\partial \theta^T}\)),则:\[U(\theta) = \frac{\partial l}{\partial \theta} = \frac{1}{\sigma^2} V(\theta)^T e(\theta) \]
- 求Fisher信息矩阵:对得分函数求二阶导并取期望,得:\[I(\theta) = \frac{1}{\sigma^2} V(\theta)^T V(\theta) \]
- Score统计量:代入定义得:\[SC(\theta) = U(\theta)^T I(\theta)^{-1} U(\theta) = \frac{1}{\sigma^2} e(\theta)^T P_V(\theta) e(\theta) \]其中\(P_V(\theta) = V(\theta)(V(\theta)^T V(\theta))^{-1} V(\theta)^T\)为投影矩阵,渐近分布为\(\chi^2(p)\)。
置信域构造:
步骤5:推导Wald统计量与置信域
将Fisher信息在\(\hat{\theta}\)处取值,代入Wald统计量定义得:
渐近分布为\(\chi^2(p)\)。
置信域构造:
五、三大统计量的核心对比与适用场景
| 统计量 | 核心定义 | 渐近分布 | 核心优点 | 核心缺点 | 适用场景 |
|---|---|---|---|---|---|
| 似然比LR | \(2[l(\hat{\theta})-l(\theta)]\) | \(\chi^2(p)\) | 1. 参数变换不变性;2. 大样本下表现最优;3. 适合子集参数估计 | 1. 需计算每个\(\theta\)的条件MLE;2. 非线性不等式反解麻烦 | 多参数、子集参数的区间估计,对参数变换有一致性要求的场景 |
| 得分Score | \(U(\theta)^T I(\theta)^{-1} U(\theta)\) | \(\chi^2(p)\) | 1. 无需计算MLE;2. 原假设下计算简便;3. 参数变换不变性优于Wald | 1. 需计算每个\(\theta\)的Fisher信息;2. 反解复杂度高于Wald | 假设检验场景,无需计算MLE的快速区间估计 |
| Wald | \((\hat{\theta}-\theta)^T I(\hat{\theta})(\hat{\theta}-\theta)\) | \(\chi^2(p)\) | 1. 计算最简单,仅需一次MLE;2. 一维下与渐近正态区间完全等价 | 1. 无参数变换不变性;2. 小样本下表现差;3. 极端值下结果不稳定 | 大样本一维参数估计,计算效率优先的场景 |
六、全知识点结构化归纳总结
表1 似然置信域核心公式汇总
| 参数场景 | 统计量 | 渐近分布 | 水平\(1-\alpha\)的置信域/区间 |
|---|---|---|---|
| \(p\)维全参数\(\theta\) | 似然比\(LR(\theta)=2[l(\hat{\theta})-l(\theta)]\) | \(\chi^2(p)\) | \(\{ \theta: 2[l(\hat{\theta})-l(\theta)] \leq \chi^2_{1-\alpha}(p) \}\) |
| \(p\)维全参数\(\theta\) | Score\(SC(\theta)=U(\theta)^T I(\theta)^{-1} U(\theta)\) | \(\chi^2(p)\) | \(\{ \theta: SC(\theta) \leq \chi^2_{1-\alpha}(p) \}\) |
| \(p\)维全参数\(\theta\) | Wald\(WD(\theta)=(\hat{\theta}-\theta)^T I(\hat{\theta})(\hat{\theta}-\theta)\) | \(\chi^2(p)\) | \(\{ \theta: WD(\theta) \leq \chi^2_{1-\alpha}(p) \}\) |
| \(p_1\)维子集参数\(\theta_1\) | 子集似然比\(LR(\theta_1)=2[l(\hat{\theta})-l(\theta_1,\tilde{\theta}_2(\theta_1))]\) | \(\chi^2(p_1)\) | \(\{ \theta_1: LR(\theta_1) \leq \chi^2_{1-\alpha}(p_1) \}\) |
| 一维Poisson参数\(\lambda\) | Wald统计量 | \(\chi^2(1)\) | \(\left[ \hat{\lambda} \pm z_{1-\alpha/2} \sqrt{\frac{\hat{\lambda}}{n}} \right]\) |
| 非线性回归\(p\)维参数\(\theta\) | 似然比统计量 | \(\chi^2(p)\) | \(\{ \theta: S(\theta) \leq S(\hat{\theta}) + \hat{\sigma}^2 \chi^2_{1-\alpha}(p) \}\) |
表2 似然置信域与渐近正态置信域的核心联系
| 维度 | 渐近正态置信域 | 似然置信域(Wald统计量) |
|---|---|---|
| 理论基础 | MLE的渐近正态性 | MLE渐近正态性的平方形式 |
| 一维枢轴量 | \(\frac{\hat{\theta}-\theta}{\hat{\sigma}} \stackrel{L}{\rightarrow} N(0,1)\) | \(\left( \frac{\hat{\theta}-\theta}{\hat{\sigma}} \right)^2 \stackrel{L}{\rightarrow} \chi^2(1)\) |
| 置信区间 | \(\hat{\theta} \pm z_{1-\alpha/2}\hat{\sigma}\) | 与渐近正态区间完全等价 |
| 适用场景 | 一维单参数大样本估计 | 一维、多维、子集参数大样本估计 |
表3 例题核心结论汇总
| 例题编号 | 分布场景 | 核心结果 |
|---|---|---|
| 例7.1.12 | Poisson分布\(P(\lambda)\) | 1. 似然比区间需解非线性不等式;2. Score区间需解二次不等式;3. Wald区间与渐近正态区间完全等价,计算最简便 |
| 例7.1.13 | 非线性回归模型 | 1. 似然置信域为残差平方和不超过阈值的参数集合;2. 三大统计量均可构造渐近置信域,大样本下等价;3. \(\sigma^2\)未知时可用相合估计替代,不改变渐近分布 |
posted on 2026-02-27 19:07 Indian_Mysore 阅读(1) 评论(0) 收藏 举报
浙公网安备 33010602011771号