5.3.5似然比统计量的渐近$\chi^2$性
似然比统计量的渐近\(\chi^2\)性 详细讲解与推导
一、知识点定位与核心前提
似然比检验是数理统计参数假设检验的核心方法之一,似然比统计量的渐近\(\chi^2\)性是其大样本理论的基石,它完全依赖于最大似然估计(MLE)的渐近正态性,同时建立了似然比(LR)、得分(SC/Rao)、Wald(WD)三大检验统计量的渐近等价性,是参数统计大样本理论的核心内容。
1.1 基础符号与定义
设总体\(X\)的概率密度(分布列)为\(f(x;\theta)\),\(\theta\in\Theta\subset\mathbb{R}^p\)为\(p\)维未知参数,\(X_1,X_2,\dots,X_n\)为独立同分布(i.i.d.)样本,定义:
| 名称 | 表达式 | 核心说明 |
|---|---|---|
| 似然函数 | \(L(\theta)=\prod_{i=1}^n f(X_i;\theta)\) | 样本联合密度,视为参数\(\theta\)的函数 |
| 对数似然函数 | \(L(\theta)=\sum_{i=1}^n \log f(X_i;\theta)\) | 教材中用\(L(\theta)\)表示,简化求导与极值计算 |
| 得分函数(一阶导数) | \(\dot{L}(\theta)=\frac{\partial L(\theta)}{\partial \theta}\) | 对数似然的一阶偏导,MLE满足似然方程\(\dot{L}(\widehat{\theta}_n)=0\) |
| Hessian矩阵(二阶导数) | \(\ddot{L}(\theta)=\frac{\partial^2 L(\theta)}{\partial \theta \partial \theta^T}\) | \(p\times p\)二阶偏导矩阵,刻画对数似然的曲率 |
| 单样本Fisher信息 | \(i(\theta)=-E_\theta\left[\frac{\partial^2 \log f(X;\theta)}{\partial \theta \partial \theta^T}\right]\) | 刻画样本对参数的信息含量,正定有限 |
| 总Fisher信息 | \(I(\theta)=n\cdot i(\theta)\) | 样本量为\(n\)时的总信息,满足\(I(\theta)=-E_\theta[\ddot{L}(\theta)]\) |
| 似然比统计量 | \(LR(\theta)=2\left[L(\widehat{\theta}_n)-L(\theta)\right]=2\log\left(\frac{f(\boldsymbol{X};\widehat{\theta}_n)}{f(\boldsymbol{X};\theta)}\right)\) | 衡量参数取\(\theta\)时与最优拟合(MLE处)的似然差距 |
1.2 正则条件(所有渐近性质成立的前提)
以下Cramér-Rao正则条件是定理成立的核心,缺一不可:
- 参数空间\(\Theta\)是\(\mathbb{R}^p\)中的开集;
- 分布的支撑集\(\{x:f(x;\theta)>0\}\)与参数\(\theta\)无关;
- 对数似然\(L(\theta)\)关于\(\theta\)的3阶偏导数在\(\Theta\)内存在;
- Fisher信息矩阵\(i(\theta)\)正定、有限,且关于\(\theta\)连续;
- 导数与期望可交换:\(E_\theta[\dot{L}(\theta)]=0\),\(E_\theta[\ddot{L}(\theta)]=-I(\theta)\);
- 三阶导数的期望一致有界:存在\(M(x)\)使得\(|L^{(3)}(\theta)| \leq M(x)\),且\(E_\theta[M(X)]<\infty\),在\(\theta\)的邻域内一致成立。
二、前置定理:MLE的随机展开(定理5.3.7)
定理内容
在上述正则条件下,设\(\theta_0\)为参数的真实值,MLE\(\widehat{\theta}_n\)有如下随机展开:
其中\(O_p(\cdot)\)为依概率有界记号,\(o_p(\cdot)\)为依概率收敛到0的记号。
详细证明过程
-
似然方程的泰勒展开
由MLE满足似然方程\(\dot{L}(\widehat{\theta}_n)=0\),在真实值\(\theta_0\)处对\(\dot{L}(\widehat{\theta}_n)\)做二阶泰勒展开(拉格朗日余项):\[\dot{L}(\widehat{\theta}_n) = \dot{L}(\theta_0) + \ddot{L}(\theta_0)(\widehat{\theta}_n - \theta_0) + \frac{1}{2} (\widehat{\theta}_n - \theta_0)^T L^{(3)}(\xi) (\widehat{\theta}_n - \theta_0) = 0 \]其中\(\xi\)介于\(\theta_0\)和\(\widehat{\theta}_n\)之间,记\(\Delta\theta = \widehat{\theta}_n - \theta_0\),移项整理得:
\[\Delta\theta = [-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0) + \frac{1}{2} [-\ddot{L}(\theta_0)]^{-1} \cdot \Delta\theta^T L^{(3)}(\xi) \Delta\theta \tag{5.3.29} \] -
主项阶数分析
- 由大数定律:\(\frac{-\ddot{L}(\theta_0)}{n} \xrightarrow{P} i(\theta_0)\),故\(\left[\frac{-\ddot{L}(\theta_0)}{n}\right]^{-1}=O_p(1)\);
- 由中心极限定理:\(\frac{\dot{L}(\theta_0)}{\sqrt{n}} \xrightarrow{d} N(0,i(\theta_0))\),故\(\frac{\dot{L}(\theta_0)}{\sqrt{n}}=O_p(1)\),即\(\dot{L}(\theta_0)=O_p(n^{1/2})\);
- 主项拆分:\([-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0) = \left[\frac{-\ddot{L}(\theta_0)}{n}\right]^{-1} \cdot \frac{\dot{L}(\theta_0)}{\sqrt{n}} \cdot \frac{1}{\sqrt{n}} = O_p(n^{-1/2})\)。
-
余项阶数分析
余项为\(\frac{1}{2} [-\ddot{L}(\theta_0)]^{-1} \cdot \Delta\theta^T L^{(3)}(\xi) \Delta\theta\),拆分得:\[\text{余项} = \frac{1}{2n} \left[\frac{-\ddot{L}(\theta_0)}{n}\right]^{-1} \cdot (\sqrt{n}\Delta\theta)^T \cdot \frac{L^{(3)}(\xi)}{n} \cdot (\sqrt{n}\Delta\theta) \]由正则条件,\(\frac{L^{(3)}(\xi)}{n}=O_p(1)\),且\(\sqrt{n}\Delta\theta=O_p(1)\),因此余项整体为\(O_p(n^{-1})\)。
-
第一个展开式得证
代入(5.3.29)得:\[\Delta\theta = [-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0) + O_p(n^{-1}) = O_p(n^{-1/2}) \]即(5.3.27)式成立。
-
第二个展开式推导
由大数定律,\(\frac{-\ddot{L}(\theta_0)}{n} = i(\theta_0) + O_p(n^{-1/2})\),求逆得:\[[-\ddot{L}(\theta_0)]^{-1} = \frac{1}{n}i^{-1}(\theta_0) + O_p(n^{-3/2}) = I^{-1}(\theta_0) + O_p(n^{-3/2}) \]代入(5.3.27),交叉项\(O_p(n^{-3/2})\cdot O_p(n^{1/2})=O_p(n^{-1})\),因此:
\[\Delta\theta = I^{-1}(\theta_0)\dot{L}(\theta_0) + O_p(n^{-1}) \]即(5.3.28)式得证。
定理意义
将MLE与真实值的偏差分解为得分函数的线性主项和高阶小项,是后续似然比渐近性质证明的核心工具,同时直接给出了MLE的收敛速度为\(n^{-1/2}\)。
三、核心定理:似然比统计量的渐近\(\chi^2\)性(定理5.3.8)
定理内容
在正则条件下,对参数的真实值\(\theta_0\),有:
其中\(\xrightarrow{d}\)表示依分布收敛,\(p\)为参数\(\theta\)的维数,\(\chi^2(p)\)为自由度为\(p\)的卡方分布。
详细证明过程
-
对数似然的泰勒展开
在\(\theta_0\)处对\(L(\widehat{\theta}_n)\)做三阶泰勒展开:\[L(\widehat{\theta}_n) = L(\theta_0) + \dot{L}^T(\theta_0)\Delta\theta + \frac{1}{2} \Delta\theta^T \ddot{L}(\theta_0) \Delta\theta + \text{余项} \]其中\(\text{余项}=\frac{1}{6}\sum_{i,j,k} L^{(3)}(\xi)_{ijk}\Delta\theta_i\Delta\theta_j\Delta\theta_k\),移项乘2得似然比统计量的展开式:
\[LR(\theta_0) = 2\dot{L}^T(\theta_0)\Delta\theta + \Delta\theta^T \ddot{L}(\theta_0) \Delta\theta + 2\cdot\text{余项} \tag{*} \] -
代入MLE随机展开式
将\(\Delta\theta = [-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0) + O_p(n^{-1})\)代入(*)式:- 第一项主项:\(2\dot{L}^T(\theta_0)[-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0)\),余项为\(2\dot{L}^T(\theta_0)\cdot O_p(n^{-1})=O_p(n^{-1/2})\);
- 第二项主项:\(\dot{L}^T(\theta_0)[-\ddot{L}(\theta_0)]^{-1}\ddot{L}(\theta_0)[-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0) = -\dot{L}^T(\theta_0)[-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0)\),交叉项为\(O_p(n^{-1/2})\);
- 三阶余项:\(\text{余项}=O_p(n^{-1/2})\),乘2后仍为\(O_p(n^{-1/2})\)。
-
主项合并与化简
合并第一项和第二项的主项,所有余项合并为\(O_p(n^{-1/2})\),得:\[LR(\theta_0) = \dot{L}^T(\theta_0)[-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0) + O_p(n^{-1/2}) \tag{5.3.31} \]代入\([-\ddot{L}(\theta_0)]^{-1}=I^{-1}(\theta_0)+O_p(n^{-3/2})\),交叉项为\(O_p(n^{-1/2})\),因此:
\[LR(\theta_0) = \dot{L}^T(\theta_0)I^{-1}(\theta_0)\dot{L}(\theta_0) + O_p(n^{-1/2}) \] -
标准化与渐近分布推导
令\(Z_n = i^{-1/2}(\theta_0)\cdot\frac{\dot{L}(\theta_0)}{\sqrt{n}}\),其中\(i^{-1/2}(\theta_0)\)为Fisher信息的Cholesky逆矩阵,则:\[\dot{L}^T(\theta_0)I^{-1}(\theta_0)\dot{L}(\theta_0) = \left(\frac{\dot{L}(\theta_0)}{\sqrt{n}}\right)^T i^{-1}(\theta_0) \left(\frac{\dot{L}(\theta_0)}{\sqrt{n}}\right) = Z_n^T Z_n \]由中心极限定理,\(\frac{\dot{L}(\theta_0)}{\sqrt{n}} \xrightarrow{d} N(0,i(\theta_0))\),因此\(Z_n \xrightarrow{d} N(0,I_p)\)(\(p\)维标准正态分布)。
-
极限分布确定
由连续映射定理,\(Z_n^T Z_n \xrightarrow{d} Z^T Z \sim \chi^2(p)\)(\(p\)维标准正态向量的平方和服从自由度为\(p\)的卡方分布)。
结合Slutsky定理,\(O_p(n^{-1/2})\xrightarrow{P}0\)不改变极限分布,因此:\[LR(\theta_0) \xrightarrow{d} \chi^2(p) \]定理得证。
定理核心意义
为大样本参数假设检验提供了理论依据:当原假设\(H_0:\theta=\theta_0\)成立时,似然比统计量渐近服从\(\chi^2(p)\),因此拒绝域可构造为\(LR(\theta_0)>\chi^2_{1-\alpha}(p)\),其中\(\chi^2_{1-\alpha}(p)\)为卡方分布的上\(\alpha\)分位数,\(\alpha\)为显著性水平。
四、三大检验统计量的渐近等价性(定理5.3.9)
三大统计量定义
| 统计量名称 | 表达式 | 核心特点 |
|---|---|---|
| 得分统计量(SC/Rao) | \(SC(\theta_0)=\dot{L}^T(\theta_0)I^{-1}(\theta_0)\dot{L}(\theta_0)\) \(SC'(\theta_0)=\dot{L}^T(\theta_0)[-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0)\) |
仅需原假设下的得分与信息矩阵,无需备择假设MLE |
| Wald统计量(WD) | \(WD(\theta_0)=(\widehat{\theta}_n-\theta_0)^T I(\widehat{\theta}_n)(\widehat{\theta}_n-\theta_0)\) \(WD'(\theta_0)=(\widehat{\theta}_n-\theta_0)^T [-\ddot{L}(\widehat{\theta}_n)](\widehat{\theta}_n-\theta_0)\) |
仅需备择假设下的MLE,无需原假设似然计算 |
| 似然比统计量(LR) | \(LR(\theta_0)=2[L(\widehat{\theta}_n)-L(\theta_0)]\) | 需计算原假设与备择假设下的似然值,适用范围最广 |
定理内容
在正则条件下,有:
且
核心证明思路
-
LR与SC的等价性:定理5.3.8的证明中已直接得到\(LR(\theta_0)=SC'(\theta_0)+O_p(n^{-1/2})=SC(\theta_0)+O_p(n^{-1/2})\),且\(SC(\theta_0)=Z_n^T Z_n\xrightarrow{d}\chi^2(p)\),因此\(SC'(\theta_0)\)也收敛到\(\chi^2(p)\)。
-
LR与WD的等价性:由MLE随机展开式\(\dot{L}(\theta_0)=I(\theta_0)\Delta\theta + O_p(1)\),代入\(SC(\theta_0)\)得:
\[SC(\theta_0) = \Delta\theta^T I(\theta_0)\Delta\theta + O_p(n^{-1/2}) \]结合\(LR(\theta_0)=SC(\theta_0)+O_p(n^{-1/2})\),以及\(\widehat{\theta}_n\xrightarrow{P}\theta_0\)、\(I(\widehat{\theta}_n)\xrightarrow{P}I(\theta_0)\)(Slutsky定理),得:
\[LR(\theta_0) = WD(\theta_0) + O_p(n^{-1/2}) \]同时\(\sqrt{n}\Delta\theta\xrightarrow{d}N(0,i^{-1}(\theta_0))\),因此\(WD(\theta_0)\xrightarrow{d}\chi^2(p)\),同理\(WD'(\theta_0)\)也收敛到\(\chi^2(p)\)。
定理意义
三大检验统计量在大样本下完全等价,仅在小样本性质、计算复杂度和适用场景上有差异,可根据实际问题灵活选择。
五、反例:正则条件的必要性(例5.3.12)
反例设定
设\(X_1,\dots,X_n\)为i.i.d.样本,\(X_1\sim R(0,\theta)\)(均匀分布\(U(0,\theta)\)),\(\theta>0\),证明\(LR(\theta_0)\)的精确分布为\(\chi^2(2)\),而非收敛到\(\chi^2(1)\)(参数维数\(p=1\))。
详细证明过程
-
似然函数与MLE求解
均匀分布的密度为\(f(x;\theta)=\frac{1}{\theta}I\{0\leq x\leq\theta\}\),样本联合似然为:\[f(\boldsymbol{x};\theta)=\theta^{-n}I\{0\leq x_{(n)}\leq\theta\}, \quad x_{(n)}=\max\{x_1,\dots,x_n\} \]对数似然\(L(\theta)=-n\log\theta + \log I\{0\leq x_{(n)}\leq\theta\}\),最大化得MLE\(\widehat{\theta}_n=x_{(n)}\)。
-
似然比统计量计算
当\(\theta\geq x_{(n)}\)时,\(LR(\theta)=2\left[-n\log x_{(n)} +n\log\theta\right]=2n\log\left(\frac{\theta}{x_{(n)}}\right)\)。 -
分布推导
令\(T=X_{(n)}\),则\(T/\theta_0\sim BE(n,1)\),密度为\(p_T(t)=n t^{n-1}\theta_0^{-n},0\leq t\leq\theta_0\)。
做变量替换\(U=LR(\theta_0)=2n\log(\theta_0/T)\),解得\(T=\theta_0 e^{-U/(2n)}\),导数\(|\frac{dT}{dU}|=\frac{\theta_0}{2n}e^{-U/(2n)}\)。
由密度变换公式:\[p_U(u) = n\cdot(\theta_0 e^{-u/(2n)})^{n-1}\cdot\theta_0^{-n}\cdot\frac{\theta_0}{2n}e^{-u/(2n)} = \frac{1}{2}e^{-u/2}, \quad u\geq0 \]该密度恰好是\(\chi^2(2)\)的概率密度,因此\(LR(\theta_0)\sim\chi^2(2)\),与\(n\)无关,不收敛到\(\chi^2(1)\)。
反例核心结论
均匀分布\(U(0,\theta)\)的支撑集\([0,\theta]\)与参数\(\theta\)相关,不满足正则条件第二条,因此似然比的渐近\(\chi^2\)性不成立,说明正则条件是定理成立的必要前提。
六、核心知识点归纳总结表
| 模块 | 核心内容 | 关键结论 | 适用条件/注意事项 |
|---|---|---|---|
| 核心定义 | 似然比统计量\(LR(\theta)=2[L(\widehat{\theta}_n)-L(\theta)]\) | 似然比的对数的2倍,衡量模型拟合差距 | 需存在参数的MLE |
| 正则条件 | 支撑集与参数无关、3阶可导、Fisher信息正定、导数与期望可交换等 | 所有渐近定理成立的必要前提 | 支撑集与参数相关时,定理大概率失效 |
| MLE随机展开 | \(\widehat{\theta}_n-\theta_0=I^{-1}(\theta_0)\dot{L}(\theta_0)+O_p(n^{-1})\) | MLE收敛速度为\(n^{-1/2}\),偏差可分解为得分函数的线性项 | 正则条件下成立 |
| 似然比渐近\(\chi^2\)性 | \(LR(\theta_0)\xrightarrow{d}\chi^2(p)\) | 大样本下,原假设成立时似然比统计量服从自由度为参数维数的卡方分布 | 正则条件、大样本、原假设\(H_0:\theta=\theta_0\)成立 |
| 三大检验渐近等价性 | LR、SC、WD三大统计量仅相差\(O_p(n^{-1/2})\),均渐近服从\(\chi^2(p)\) | 大样本下三大检验效果一致,可按需选择 | 正则条件、大样本下成立 |
| 反例与边界 | 均匀分布\(U(0,\theta)\)的\(LR(\theta_0)\sim\chi^2(2)\),不收敛到\(\chi^2(1)\) | 正则条件不满足时,渐近性质完全失效 | 支撑集与参数相关的分布,不可直接套用渐近定理 |
posted on 2026-02-25 09:25 Indian_Mysore 阅读(0) 评论(0) 收藏 举报
浙公网安备 33010602011771号