昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

5.3.5似然比统计量的渐近$\chi^2$性

似然比统计量的渐近\(\chi^2\)性 详细讲解与推导

一、知识点定位与核心前提

似然比检验是数理统计参数假设检验的核心方法之一,似然比统计量的渐近\(\chi^2\)是其大样本理论的基石,它完全依赖于最大似然估计(MLE)的渐近正态性,同时建立了似然比(LR)、得分(SC/Rao)、Wald(WD)三大检验统计量的渐近等价性,是参数统计大样本理论的核心内容。

1.1 基础符号与定义

设总体\(X\)的概率密度(分布列)为\(f(x;\theta)\)\(\theta\in\Theta\subset\mathbb{R}^p\)\(p\)维未知参数,\(X_1,X_2,\dots,X_n\)为独立同分布(i.i.d.)样本,定义:

名称 表达式 核心说明
似然函数 \(L(\theta)=\prod_{i=1}^n f(X_i;\theta)\) 样本联合密度,视为参数\(\theta\)的函数
对数似然函数 \(L(\theta)=\sum_{i=1}^n \log f(X_i;\theta)\) 教材中用\(L(\theta)\)表示,简化求导与极值计算
得分函数(一阶导数) \(\dot{L}(\theta)=\frac{\partial L(\theta)}{\partial \theta}\) 对数似然的一阶偏导,MLE满足似然方程\(\dot{L}(\widehat{\theta}_n)=0\)
Hessian矩阵(二阶导数) \(\ddot{L}(\theta)=\frac{\partial^2 L(\theta)}{\partial \theta \partial \theta^T}\) \(p\times p\)二阶偏导矩阵,刻画对数似然的曲率
单样本Fisher信息 \(i(\theta)=-E_\theta\left[\frac{\partial^2 \log f(X;\theta)}{\partial \theta \partial \theta^T}\right]\) 刻画样本对参数的信息含量,正定有限
总Fisher信息 \(I(\theta)=n\cdot i(\theta)\) 样本量为\(n\)时的总信息,满足\(I(\theta)=-E_\theta[\ddot{L}(\theta)]\)
似然比统计量 \(LR(\theta)=2\left[L(\widehat{\theta}_n)-L(\theta)\right]=2\log\left(\frac{f(\boldsymbol{X};\widehat{\theta}_n)}{f(\boldsymbol{X};\theta)}\right)\) 衡量参数取\(\theta\)时与最优拟合(MLE处)的似然差距

1.2 正则条件(所有渐近性质成立的前提)

以下Cramér-Rao正则条件是定理成立的核心,缺一不可:

  1. 参数空间\(\Theta\)\(\mathbb{R}^p\)中的开集;
  2. 分布的支撑集\(\{x:f(x;\theta)>0\}\)与参数\(\theta\)无关;
  3. 对数似然\(L(\theta)\)关于\(\theta\)的3阶偏导数在\(\Theta\)内存在;
  4. Fisher信息矩阵\(i(\theta)\)正定、有限,且关于\(\theta\)连续;
  5. 导数与期望可交换:\(E_\theta[\dot{L}(\theta)]=0\)\(E_\theta[\ddot{L}(\theta)]=-I(\theta)\)
  6. 三阶导数的期望一致有界:存在\(M(x)\)使得\(|L^{(3)}(\theta)| \leq M(x)\),且\(E_\theta[M(X)]<\infty\),在\(\theta\)的邻域内一致成立。

二、前置定理:MLE的随机展开(定理5.3.7)

定理内容

在上述正则条件下,设\(\theta_0\)为参数的真实值,MLE\(\widehat{\theta}_n\)有如下随机展开:

\[\widehat{\theta}_n - \theta_0 = [-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0) + O_p(n^{-1}) = O_p(n^{-1/2}) \tag{5.3.27} \]

\[\widehat{\theta}_n - \theta_0 = I^{-1}(\theta_0)\dot{L}(\theta_0) + O_p(n^{-1}) \tag{5.3.28} \]

其中\(O_p(\cdot)\)为依概率有界记号,\(o_p(\cdot)\)为依概率收敛到0的记号。

详细证明过程

  1. 似然方程的泰勒展开
    由MLE满足似然方程\(\dot{L}(\widehat{\theta}_n)=0\),在真实值\(\theta_0\)处对\(\dot{L}(\widehat{\theta}_n)\)做二阶泰勒展开(拉格朗日余项):

    \[\dot{L}(\widehat{\theta}_n) = \dot{L}(\theta_0) + \ddot{L}(\theta_0)(\widehat{\theta}_n - \theta_0) + \frac{1}{2} (\widehat{\theta}_n - \theta_0)^T L^{(3)}(\xi) (\widehat{\theta}_n - \theta_0) = 0 \]

    其中\(\xi\)介于\(\theta_0\)\(\widehat{\theta}_n\)之间,记\(\Delta\theta = \widehat{\theta}_n - \theta_0\),移项整理得:

    \[\Delta\theta = [-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0) + \frac{1}{2} [-\ddot{L}(\theta_0)]^{-1} \cdot \Delta\theta^T L^{(3)}(\xi) \Delta\theta \tag{5.3.29} \]

  2. 主项阶数分析

    • 由大数定律:\(\frac{-\ddot{L}(\theta_0)}{n} \xrightarrow{P} i(\theta_0)\),故\(\left[\frac{-\ddot{L}(\theta_0)}{n}\right]^{-1}=O_p(1)\)
    • 由中心极限定理:\(\frac{\dot{L}(\theta_0)}{\sqrt{n}} \xrightarrow{d} N(0,i(\theta_0))\),故\(\frac{\dot{L}(\theta_0)}{\sqrt{n}}=O_p(1)\),即\(\dot{L}(\theta_0)=O_p(n^{1/2})\)
    • 主项拆分:\([-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0) = \left[\frac{-\ddot{L}(\theta_0)}{n}\right]^{-1} \cdot \frac{\dot{L}(\theta_0)}{\sqrt{n}} \cdot \frac{1}{\sqrt{n}} = O_p(n^{-1/2})\)
  3. 余项阶数分析
    余项为\(\frac{1}{2} [-\ddot{L}(\theta_0)]^{-1} \cdot \Delta\theta^T L^{(3)}(\xi) \Delta\theta\),拆分得:

    \[\text{余项} = \frac{1}{2n} \left[\frac{-\ddot{L}(\theta_0)}{n}\right]^{-1} \cdot (\sqrt{n}\Delta\theta)^T \cdot \frac{L^{(3)}(\xi)}{n} \cdot (\sqrt{n}\Delta\theta) \]

    由正则条件,\(\frac{L^{(3)}(\xi)}{n}=O_p(1)\),且\(\sqrt{n}\Delta\theta=O_p(1)\),因此余项整体为\(O_p(n^{-1})\)

  4. 第一个展开式得证
    代入(5.3.29)得:

    \[\Delta\theta = [-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0) + O_p(n^{-1}) = O_p(n^{-1/2}) \]

    即(5.3.27)式成立。

  5. 第二个展开式推导
    由大数定律,\(\frac{-\ddot{L}(\theta_0)}{n} = i(\theta_0) + O_p(n^{-1/2})\),求逆得:

    \[[-\ddot{L}(\theta_0)]^{-1} = \frac{1}{n}i^{-1}(\theta_0) + O_p(n^{-3/2}) = I^{-1}(\theta_0) + O_p(n^{-3/2}) \]

    代入(5.3.27),交叉项\(O_p(n^{-3/2})\cdot O_p(n^{1/2})=O_p(n^{-1})\),因此:

    \[\Delta\theta = I^{-1}(\theta_0)\dot{L}(\theta_0) + O_p(n^{-1}) \]

    即(5.3.28)式得证。

定理意义

将MLE与真实值的偏差分解为得分函数的线性主项和高阶小项,是后续似然比渐近性质证明的核心工具,同时直接给出了MLE的收敛速度为\(n^{-1/2}\)


三、核心定理:似然比统计量的渐近\(\chi^2\)性(定理5.3.8)

定理内容

在正则条件下,对参数的真实值\(\theta_0\),有:

\[LR(\theta_0) = 2\left[ L(\widehat{\theta}_n) - L(\theta_0) \right] \xrightarrow{d} \chi^2(p), \quad \forall \theta_0\in\Theta \]

其中\(\xrightarrow{d}\)表示依分布收敛,\(p\)为参数\(\theta\)的维数,\(\chi^2(p)\)为自由度为\(p\)的卡方分布。

详细证明过程

  1. 对数似然的泰勒展开
    \(\theta_0\)处对\(L(\widehat{\theta}_n)\)做三阶泰勒展开:

    \[L(\widehat{\theta}_n) = L(\theta_0) + \dot{L}^T(\theta_0)\Delta\theta + \frac{1}{2} \Delta\theta^T \ddot{L}(\theta_0) \Delta\theta + \text{余项} \]

    其中\(\text{余项}=\frac{1}{6}\sum_{i,j,k} L^{(3)}(\xi)_{ijk}\Delta\theta_i\Delta\theta_j\Delta\theta_k\),移项乘2得似然比统计量的展开式:

    \[LR(\theta_0) = 2\dot{L}^T(\theta_0)\Delta\theta + \Delta\theta^T \ddot{L}(\theta_0) \Delta\theta + 2\cdot\text{余项} \tag{*} \]

  2. 代入MLE随机展开式
    \(\Delta\theta = [-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0) + O_p(n^{-1})\)代入(*)式:

    • 第一项主项:\(2\dot{L}^T(\theta_0)[-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0)\),余项为\(2\dot{L}^T(\theta_0)\cdot O_p(n^{-1})=O_p(n^{-1/2})\)
    • 第二项主项:\(\dot{L}^T(\theta_0)[-\ddot{L}(\theta_0)]^{-1}\ddot{L}(\theta_0)[-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0) = -\dot{L}^T(\theta_0)[-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0)\),交叉项为\(O_p(n^{-1/2})\)
    • 三阶余项:\(\text{余项}=O_p(n^{-1/2})\),乘2后仍为\(O_p(n^{-1/2})\)
  3. 主项合并与化简
    合并第一项和第二项的主项,所有余项合并为\(O_p(n^{-1/2})\),得:

    \[LR(\theta_0) = \dot{L}^T(\theta_0)[-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0) + O_p(n^{-1/2}) \tag{5.3.31} \]

    代入\([-\ddot{L}(\theta_0)]^{-1}=I^{-1}(\theta_0)+O_p(n^{-3/2})\),交叉项为\(O_p(n^{-1/2})\),因此:

    \[LR(\theta_0) = \dot{L}^T(\theta_0)I^{-1}(\theta_0)\dot{L}(\theta_0) + O_p(n^{-1/2}) \]

  4. 标准化与渐近分布推导
    \(Z_n = i^{-1/2}(\theta_0)\cdot\frac{\dot{L}(\theta_0)}{\sqrt{n}}\),其中\(i^{-1/2}(\theta_0)\)为Fisher信息的Cholesky逆矩阵,则:

    \[\dot{L}^T(\theta_0)I^{-1}(\theta_0)\dot{L}(\theta_0) = \left(\frac{\dot{L}(\theta_0)}{\sqrt{n}}\right)^T i^{-1}(\theta_0) \left(\frac{\dot{L}(\theta_0)}{\sqrt{n}}\right) = Z_n^T Z_n \]

    由中心极限定理,\(\frac{\dot{L}(\theta_0)}{\sqrt{n}} \xrightarrow{d} N(0,i(\theta_0))\),因此\(Z_n \xrightarrow{d} N(0,I_p)\)\(p\)维标准正态分布)。

  5. 极限分布确定
    由连续映射定理,\(Z_n^T Z_n \xrightarrow{d} Z^T Z \sim \chi^2(p)\)\(p\)维标准正态向量的平方和服从自由度为\(p\)的卡方分布)。
    结合Slutsky定理,\(O_p(n^{-1/2})\xrightarrow{P}0\)不改变极限分布,因此:

    \[LR(\theta_0) \xrightarrow{d} \chi^2(p) \]

    定理得证。

定理核心意义

为大样本参数假设检验提供了理论依据:当原假设\(H_0:\theta=\theta_0\)成立时,似然比统计量渐近服从\(\chi^2(p)\),因此拒绝域可构造为\(LR(\theta_0)>\chi^2_{1-\alpha}(p)\),其中\(\chi^2_{1-\alpha}(p)\)为卡方分布的上\(\alpha\)分位数,\(\alpha\)为显著性水平。


四、三大检验统计量的渐近等价性(定理5.3.9)

三大统计量定义

统计量名称 表达式 核心特点
得分统计量(SC/Rao) \(SC(\theta_0)=\dot{L}^T(\theta_0)I^{-1}(\theta_0)\dot{L}(\theta_0)\)
\(SC'(\theta_0)=\dot{L}^T(\theta_0)[-\ddot{L}(\theta_0)]^{-1}\dot{L}(\theta_0)\)
仅需原假设下的得分与信息矩阵,无需备择假设MLE
Wald统计量(WD) \(WD(\theta_0)=(\widehat{\theta}_n-\theta_0)^T I(\widehat{\theta}_n)(\widehat{\theta}_n-\theta_0)\)
\(WD'(\theta_0)=(\widehat{\theta}_n-\theta_0)^T [-\ddot{L}(\widehat{\theta}_n)](\widehat{\theta}_n-\theta_0)\)
仅需备择假设下的MLE,无需原假设似然计算
似然比统计量(LR) \(LR(\theta_0)=2[L(\widehat{\theta}_n)-L(\theta_0)]\) 需计算原假设与备择假设下的似然值,适用范围最广

定理内容

在正则条件下,有:

\[LR(\theta_0) = SC(\theta_0) + O_p(n^{-1/2}) = SC'(\theta_0) + O_p(n^{-1/2}) \]

\[LR(\theta_0) = WD(\theta_0) + O_p(n^{-1/2}) = WD'(\theta_0) + O_p(n^{-1/2}) \]

\[SC(\theta_0),SC'(\theta_0),WD(\theta_0),WD'(\theta_0) \xrightarrow{d} \chi^2(p) \]

核心证明思路

  1. LR与SC的等价性:定理5.3.8的证明中已直接得到\(LR(\theta_0)=SC'(\theta_0)+O_p(n^{-1/2})=SC(\theta_0)+O_p(n^{-1/2})\),且\(SC(\theta_0)=Z_n^T Z_n\xrightarrow{d}\chi^2(p)\),因此\(SC'(\theta_0)\)也收敛到\(\chi^2(p)\)

  2. LR与WD的等价性:由MLE随机展开式\(\dot{L}(\theta_0)=I(\theta_0)\Delta\theta + O_p(1)\),代入\(SC(\theta_0)\)得:

    \[SC(\theta_0) = \Delta\theta^T I(\theta_0)\Delta\theta + O_p(n^{-1/2}) \]

    结合\(LR(\theta_0)=SC(\theta_0)+O_p(n^{-1/2})\),以及\(\widehat{\theta}_n\xrightarrow{P}\theta_0\)\(I(\widehat{\theta}_n)\xrightarrow{P}I(\theta_0)\)(Slutsky定理),得:

    \[LR(\theta_0) = WD(\theta_0) + O_p(n^{-1/2}) \]

    同时\(\sqrt{n}\Delta\theta\xrightarrow{d}N(0,i^{-1}(\theta_0))\),因此\(WD(\theta_0)\xrightarrow{d}\chi^2(p)\),同理\(WD'(\theta_0)\)也收敛到\(\chi^2(p)\)

定理意义

三大检验统计量在大样本下完全等价,仅在小样本性质、计算复杂度和适用场景上有差异,可根据实际问题灵活选择。


五、反例:正则条件的必要性(例5.3.12)

反例设定

\(X_1,\dots,X_n\)为i.i.d.样本,\(X_1\sim R(0,\theta)\)(均匀分布\(U(0,\theta)\)),\(\theta>0\),证明\(LR(\theta_0)\)的精确分布为\(\chi^2(2)\),而非收敛到\(\chi^2(1)\)(参数维数\(p=1\))。

详细证明过程

  1. 似然函数与MLE求解
    均匀分布的密度为\(f(x;\theta)=\frac{1}{\theta}I\{0\leq x\leq\theta\}\),样本联合似然为:

    \[f(\boldsymbol{x};\theta)=\theta^{-n}I\{0\leq x_{(n)}\leq\theta\}, \quad x_{(n)}=\max\{x_1,\dots,x_n\} \]

    对数似然\(L(\theta)=-n\log\theta + \log I\{0\leq x_{(n)}\leq\theta\}\),最大化得MLE\(\widehat{\theta}_n=x_{(n)}\)

  2. 似然比统计量计算
    \(\theta\geq x_{(n)}\)时,\(LR(\theta)=2\left[-n\log x_{(n)} +n\log\theta\right]=2n\log\left(\frac{\theta}{x_{(n)}}\right)\)

  3. 分布推导
    \(T=X_{(n)}\),则\(T/\theta_0\sim BE(n,1)\),密度为\(p_T(t)=n t^{n-1}\theta_0^{-n},0\leq t\leq\theta_0\)
    做变量替换\(U=LR(\theta_0)=2n\log(\theta_0/T)\),解得\(T=\theta_0 e^{-U/(2n)}\),导数\(|\frac{dT}{dU}|=\frac{\theta_0}{2n}e^{-U/(2n)}\)
    由密度变换公式:

    \[p_U(u) = n\cdot(\theta_0 e^{-u/(2n)})^{n-1}\cdot\theta_0^{-n}\cdot\frac{\theta_0}{2n}e^{-u/(2n)} = \frac{1}{2}e^{-u/2}, \quad u\geq0 \]

    该密度恰好是\(\chi^2(2)\)的概率密度,因此\(LR(\theta_0)\sim\chi^2(2)\),与\(n\)无关,不收敛到\(\chi^2(1)\)

反例核心结论

均匀分布\(U(0,\theta)\)的支撑集\([0,\theta]\)与参数\(\theta\)相关,不满足正则条件第二条,因此似然比的渐近\(\chi^2\)性不成立,说明正则条件是定理成立的必要前提。


六、核心知识点归纳总结表

模块 核心内容 关键结论 适用条件/注意事项
核心定义 似然比统计量\(LR(\theta)=2[L(\widehat{\theta}_n)-L(\theta)]\) 似然比的对数的2倍,衡量模型拟合差距 需存在参数的MLE
正则条件 支撑集与参数无关、3阶可导、Fisher信息正定、导数与期望可交换等 所有渐近定理成立的必要前提 支撑集与参数相关时,定理大概率失效
MLE随机展开 \(\widehat{\theta}_n-\theta_0=I^{-1}(\theta_0)\dot{L}(\theta_0)+O_p(n^{-1})\) MLE收敛速度为\(n^{-1/2}\),偏差可分解为得分函数的线性项 正则条件下成立
似然比渐近\(\chi^2\) \(LR(\theta_0)\xrightarrow{d}\chi^2(p)\) 大样本下,原假设成立时似然比统计量服从自由度为参数维数的卡方分布 正则条件、大样本、原假设\(H_0:\theta=\theta_0\)成立
三大检验渐近等价性 LR、SC、WD三大统计量仅相差\(O_p(n^{-1/2})\),均渐近服从\(\chi^2(p)\) 大样本下三大检验效果一致,可按需选择 正则条件、大样本下成立
反例与边界 均匀分布\(U(0,\theta)\)\(LR(\theta_0)\sim\chi^2(2)\),不收敛到\(\chi^2(1)\) 正则条件不满足时,渐近性质完全失效 支撑集与参数相关的分布,不可直接套用渐近定理

posted on 2026-02-25 09:25  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航