昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

3.3.4子集参数的似然(截面似然)

子集参数的似然(截面似然)知识点详解与推导证明

各位同学,今天我们来系统讲解子集参数的截面似然(Profile Likelihood) 这个核心知识点。它是最大似然估计(MLE)中处理多维参数、简化计算、解决冗余参数问题的核心工具,在数理统计的理论推导和实际应用中都有不可替代的作用。我会从背景铺垫、核心定义、例题推导、定理证明、性质总结五个维度,把这个知识点讲透。


一、背景铺垫:多维参数MLE的核心痛点

我们先回顾最大似然估计的核心思想:
对于总体 \(X \sim f(x;\theta)\)\(f\) 为概率密度/分布律),样本 \(X_1,\dots,X_n\) 的联合对数似然函数为

\[L(\theta) = \log \prod_{i=1}^n f(x_i;\theta) = \sum_{i=1}^n \log f(x_i;\theta) \]

MLE \(\hat{\theta}\) 满足:\(L(\hat{\theta}) = \max_{\theta \in \Theta} L(\theta)\),即让样本出现的概率最大的参数值。

当参数 \(\theta\)多维的,比如 \(\theta = (\theta_1,\theta_2)\)\(\theta_1\)\(k_1\) 维,\(\theta_2\)\(k_2\) 维,总维度 \(k=k_1+k_2\)),直接求解全局MLE需要解 \(k\) 个方程的联立方程组,计算复杂度极高;甚至有时我们只关心其中一部分参数 \(\theta_1\),另一部分 \(\theta_2\) 是不关心的冗余参数(Nuisance Parameter),我们希望把冗余参数消去,只针对目标参数做统计推断。

截面似然,就是为了解决这两个核心问题诞生的。


二、核心定义:截面似然(Profile Likelihood)

我们先给出严格的数学定义,再拆解定义的核心内涵。

定义3.3.3 截面似然

设总体 \(X \sim f(x;\theta)\),参数 \(\theta = (\theta_1,\theta_2) \in \Theta = \Theta_1 \otimes \Theta_2\)\(\Theta_1 \otimes \Theta_2\) 是参数空间的笛卡尔积,即 \(\theta_1 \in \Theta_1, \theta_2 \in \Theta_2\)),样本的对数似然函数为

\[L(\theta) = L(\theta_1,\theta_2) = \log f(x;\theta_1,\theta_2) \]

  1. 条件MLE:任意固定 \(\theta_1\) 时,\(L(\theta_1,\theta_2)\) 关于 \(\theta_2\) 的最大值点,称为固定 \(\theta_1\)\(\theta_2\) 的条件MLE,记为 \(\tilde{\theta}_2(\theta_1)\),满足:

    \[L(\theta_1, \tilde{\theta}_2(\theta_1)) = \max_{\theta_2 \in \Theta_2} L(\theta_1,\theta_2) \]

  2. 截面似然:将条件MLE \(\tilde{\theta}_2(\theta_1)\) 代入对数似然函数,得到仅关于 \(\theta_1\) 的函数

    \[L_p(\theta_1) = L(\theta_1, \tilde{\theta}_2(\theta_1)) = \max_{\theta_2 \in \Theta_2} L(\theta_1,\theta_2) \]

    \(L_p(\theta_1)\)子集参数 \(\theta_1\) 的截面似然(轮廓似然)

定义的核心内涵拆解

  1. 条件依赖性\(\tilde{\theta}_2(\theta_1)\)\(\theta_1\) 的函数——不同的 \(\theta_1\),对应的 \(\theta_2\) 条件MLE不同,仅在特殊模型下(如正态分布)与固定参数无关。
  2. 降维本质:截面似然通过「固定目标参数、对冗余参数求最大值」的方式,把 \(k=k_1+k_2\) 维的优化问题,转化为 \(k_1\) 维的低维优化问题,大幅简化计算。
  3. 与边缘似然的本质区别:截面似然是对冗余参数最大化,而边缘似然是对冗余参数积分,二者完全不同,切勿混淆。

三、经典例题:正态分布参数的分步MLE推导

我们以最经典的正态分布为例,完整演示截面似然的计算过程,验证分步求解与全局MLE的一致性。

例题设定

\(X_1,\dots,X_n\) 独立同分布,\(X_1 \sim N(\mu,\sigma^2)\),待估参数 \(\theta = (\mu,\sigma^2)\)。我们用截面似然的思路,分步求解 \(\mu\)\(\sigma^2\) 的MLE。

步骤1:写出样本的对数似然函数

首先写出样本的联合概率密度:

\[f(x_1,\dots,x_n;\mu,\sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(x_i-\mu)^2}{2\sigma^2} \right\} \]

取对数得到对数似然函数:

\[\begin{align*} L(\mu,\sigma^2) &= \sum_{i=1}^n \left[ -\frac{1}{2}\log(2\pi\sigma^2) - \frac{(x_i-\mu)^2}{2\sigma^2} \right] \\ &= -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2 \end{align*} \]

这就是教材中的式(3.3.7),是后续推导的基础。

步骤2:固定 \(\mu\),求 \(\sigma^2\) 的条件MLE

我们把 \(\mu\) 固定,此时 \(L(\mu,\sigma^2)\) 是仅关于 \(\sigma^2\) 的函数。令 \(t=\sigma^2\),则似然函数可写为:

\[L(t) = C - \frac{n}{2}\log t - \frac{1}{2t}\sum_{i=1}^n (x_i-\mu)^2 \]

其中 \(C=-\frac{n}{2}\log(2\pi)\) 是与 \(t\) 无关的常数。

\(t\) 求导并令导数为0(极值必要条件):

\[\frac{\partial L}{\partial t} = -\frac{n}{2t} + \frac{\sum_{i=1}^n (x_i-\mu)^2}{2t^2} = 0 \]

两边同乘 \(2t^2\) 化简:

\[-nt + \sum_{i=1}^n (x_i-\mu)^2 = 0 \implies t = \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2 \]

因此,固定 \(\mu\) 时,\(\sigma^2\) 的条件MLE为:

\[\tilde{\sigma}^2(\mu) = \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2 \]

可以明显看到,这个估计是 \(\mu\) 的函数,\(\mu\) 变化,\(\tilde{\sigma}^2(\mu)\) 也会变化。

步骤3:构造 \(\mu\) 的截面似然,求 \(\mu\) 的MLE

将条件MLE \(\tilde{\sigma}^2(\mu)\) 代入对数似然函数,得到仅关于 \(\mu\) 的截面似然 \(L_p(\mu) = L(\mu, \tilde{\sigma}^2(\mu))\)

代入计算:

\[\begin{align*} L_p(\mu) &= -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log\left( \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2 \right) - \frac{1}{2 \cdot \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2} \cdot \sum_{i=1}^n (x_i-\mu)^2 \\ &= -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log\left( \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2 \right) - \frac{n}{2} \end{align*} \]

观察上式:\(-\frac{n}{2}\log(2\pi)\)\(-\frac{n}{2}\) 都是与 \(\mu\) 无关的常数。要最大化 \(L_p(\mu)\),等价于最小化 \(\log\left( \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2 \right)\),也就是最小化 \(\sum_{i=1}^n (x_i-\mu)^2\)

根据最小二乘的结论,\(\sum_{i=1}^n (x_i-\mu)^2\) 的最小值在 \(\mu = \bar{X}\)(样本均值)处取得,因此 \(\mu\) 的MLE为:

\[\hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \]

步骤4:求 \(\sigma^2\) 的全局MLE

\(\hat{\mu}=\bar{X}\) 代入条件MLE \(\tilde{\sigma}^2(\mu)\),得到 \(\sigma^2\) 的全局MLE:

\[\hat{\sigma}^2 = \tilde{\sigma}^2(\bar{X}) = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2 \]

这个结果,和我们直接对 \(\mu\)\(\sigma^2\) 求偏导解方程组得到的全局MLE完全一致,验证了截面似然方法的有效性。


四、核心定理:分步MLE与全局MLE的等价性证明

刚才的例题验证了特殊模型下分步求解与全局MLE的一致性,接下来我们从理论上证明:在MLE存在且唯一的条件下,通过截面似然得到的估计,与全局MLE完全等价

定理3.3.4 严格表述

设:

  1. 对数似然函数 \(L(\theta)\) 在参数空间 \(\Theta\) 上的全局MLE \(\hat{\theta} = (\hat{\theta}_1,\hat{\theta}_2)\) 存在且唯一;
  2. 截面似然 \(L_p(\theta_1) = L(\theta_1, \tilde{\theta}_2(\theta_1))\),其中 \(\tilde{\theta}_2(\theta_1)\) 是固定 \(\theta_1\)\(\theta_2\) 的条件MLE;
  3. \(\hat{\theta}_1^*\) 是截面似然 \(L_p(\theta_1)\) 的最大值点,即 \(L_p(\hat{\theta}_1^*) = \max_{\theta_1 \in \Theta_1} L_p(\theta_1)\),记 \(\hat{\theta}_2^* = \tilde{\theta}_2(\hat{\theta}_1^*)\)\(\hat{\theta}^* = (\hat{\theta}_1^*, \hat{\theta}_2^*)\)

则有:

  1. \(\hat{\theta} = (\hat{\theta}_1,\hat{\theta}_2) = (\hat{\theta}_1^*, \hat{\theta}_2^*) = \hat{\theta}^*\)(分步估计与全局MLE完全相等);
  2. \(\tilde{\theta}_2(\hat{\theta}_1) = \hat{\theta}_2\)(全局 \(\theta_1\) 的MLE代入条件MLE,得到 \(\theta_2\) 的全局MLE)。

详细证明过程

证明结论(1):\(\hat{\theta} = \hat{\theta}^*\)

证明的核心思路:要证明两个最大值点相等,利用「MLE的唯一性」,只需证明 \(\hat{\theta}^*\) 也是 \(L(\theta)\) 的全局最大值点,即 \(L(\hat{\theta}^*) \geq L(\theta)\) 对所有 \(\theta \in \Theta\) 成立。

我们分两步证明双向不等式:\(L(\hat{\theta}) \geq L(\hat{\theta}^*)\)\(L(\hat{\theta}^*) \geq L(\hat{\theta})\)

第一步:证明 \(L(\hat{\theta}) \geq L(\hat{\theta}^*)\)

这一步是显然的:
\(\hat{\theta}\)\(L(\theta)\) 的全局最大值点,因此对任意 \(\theta \in \Theta\),都有 \(L(\hat{\theta}) \geq L(\theta)\)
\(\hat{\theta}^* = (\hat{\theta}_1^*, \hat{\theta}_2^*) \in \Theta\),因此自然有 \(L(\hat{\theta}) \geq L(\hat{\theta}^*)\)

第二步:证明 \(L(\hat{\theta}^*) \geq L(\hat{\theta})\)(核心步骤)

我们先证明更一般的结论:\(L(\hat{\theta}^*) \geq L(\theta)\) 对所有 \(\theta=(\theta_1,\theta_2) \in \Theta\) 成立。

  1. \(\hat{\theta}_1^*\) 的定义(截面似然的最大值点),对任意 \(\theta_1 \in \Theta_1\),有:

    \[L_p(\hat{\theta}_1^*) \geq L_p(\theta_1) \]

  2. 由截面似然的定义 \(L_p(\theta_1) = L(\theta_1, \tilde{\theta}_2(\theta_1))\),上式等价于:

    \[L(\hat{\theta}_1^*, \tilde{\theta}_2(\hat{\theta}_1^*)) \geq L(\theta_1, \tilde{\theta}_2(\theta_1)), \quad \forall \theta_1 \in \Theta_1 \]

    结合 \(\hat{\theta}_2^* = \tilde{\theta}_2(\hat{\theta}_1^*)\),左边即为 \(L(\hat{\theta}^*)\),因此:

    \[L(\hat{\theta}^*) \geq L(\theta_1, \tilde{\theta}_2(\theta_1)), \quad \forall \theta_1 \in \Theta_1 \tag{1} \]

  3. 再由条件MLE \(\tilde{\theta}_2(\theta_1)\) 的定义:对固定的 \(\theta_1\)\(\tilde{\theta}_2(\theta_1)\)\(L(\theta_1,\theta_2)\) 的最大值点,因此对任意 \(\theta_2 \in \Theta_2\),有:

    \[L(\theta_1, \tilde{\theta}_2(\theta_1)) \geq L(\theta_1, \theta_2), \quad \forall \theta_2 \in \Theta_2 \tag{2} \]

  4. 结合(1)(2)两个不等式,对任意 \(\theta_1 \in \Theta_1\)、任意 \(\theta_2 \in \Theta_2\),有:

    \[L(\hat{\theta}^*) \geq L(\theta_1, \tilde{\theta}_2(\theta_1)) \geq L(\theta_1, \theta_2) \]

    即:

    \[L(\hat{\theta}^*) \geq L(\theta), \quad \forall \theta \in \Theta \]

这就说明,\(\hat{\theta}^*\)\(L(\theta)\) 的一个全局最大值点。而定理条件中明确「全局MLE存在且唯一」,因此 \(\hat{\theta}^*\) 必须等于唯一的全局MLE \(\hat{\theta}\),即 \(\hat{\theta} = \hat{\theta}^*\)

证明结论(2):\(\tilde{\theta}_2(\hat{\theta}_1) = \hat{\theta}_2\)

由结论(1),我们已经得到 \(\hat{\theta}_1 = \hat{\theta}_1^*\)\(\hat{\theta}_2 = \hat{\theta}_2^*\)
而根据定义,\(\hat{\theta}_2^* = \tilde{\theta}_2(\hat{\theta}_1^*)\),代入得:

\[\hat{\theta}_2 = \tilde{\theta}_2(\hat{\theta}_1) \]

结论得证。

定理的核心意义

  1. 理论保障:只要全局MLE存在且唯一,分步求解MLE的方法就是完全严谨的,和全局求解结果一致,我们可以放心地拆分参数、分步计算。
  2. 方法推广:这个结论可以推广到任意多维参数——比如 \(\theta=(\theta_1,\theta_2,\theta_3)\),可以先固定 \(\theta_1,\theta_2\)\(\theta_3\) 的条件MLE,再构造二维截面似然,再拆分求解,逐步降维。
  3. 推断价值:当仅关心部分参数时,截面似然可以消除冗余参数的影响,直接对目标参数做假设检验、区间估计,是高维统计推断的核心工具。

五、知识点归纳总结表

分类 详细内容
核心概念:截面似然(Profile Likelihood) 1. 设定:参数 \(\theta=(\theta_1,\theta_2) \in \Theta=\Theta_1 \otimes \Theta_2\)\(\theta_1\)\(k_1\) 维目标参数,\(\theta_2\)\(k_2\) 维冗余/分步参数,样本对数似然 \(L(\theta)=L(\theta_1,\theta_2)=\log f(x;\theta_1,\theta_2)\)
2. 条件MLE:固定 \(\theta_1\) 时,\(\theta_2\) 的条件MLE \(\tilde{\theta}_2(\theta_1)\) 满足 \(L(\theta_1,\tilde{\theta}_2(\theta_1))=\max_{\theta_2 \in \Theta_2} L(\theta_1,\theta_2)\)
3. 截面似然定义:\(L_p(\theta_1) = L(\theta_1,\tilde{\theta}_2(\theta_1)) = \max_{\theta_2 \in \Theta_2} L(\theta_1,\theta_2)\),是仅关于 \(\theta_1\) 的函数
核心定理(分步MLE与全局MLE等价性) 1. 条件:对数似然 \(L(\theta)\) 的全局MLE \(\hat{\theta}=(\hat{\theta}_1,\hat{\theta}_2)\) 存在且唯一;\(\hat{\theta}_1^*\) 是截面似然 \(L_p(\theta_1)\) 的最大值点,\(\hat{\theta}_2^*=\tilde{\theta}_2(\hat{\theta}_1^*)\)\(\hat{\theta}^*=(\hat{\theta}_1^*,\hat{\theta}_2^*)\)
2. 结论:
(1) \(\hat{\theta}=\hat{\theta}^*\),即分步求解的MLE与全局MLE完全相等
(2) \(\tilde{\theta}_2(\hat{\theta}_1)=\hat{\theta}_2\),即全局 \(\theta_1\) 的MLE代入条件MLE,得到 \(\theta_2\) 的全局MLE
截面似然计算与分步求MLE步骤 1. 写出样本的对数似然函数 \(L(\theta_1,\theta_2)\)
2. 固定 \(\theta_1\),对 \(L\) 关于 \(\theta_2\) 求最大值,得到条件MLE \(\tilde{\theta}_2(\theta_1)\)(通常求导令偏导为0求解)
3. 将 \(\tilde{\theta}_2(\theta_1)\) 代入 \(L(\theta_1,\theta_2)\),得到截面似然 \(L_p(\theta_1)\)
4. 对 \(L_p(\theta_1)\) 求最大值,得到 \(\theta_1\) 的MLE \(\hat{\theta}_1\)
5. 将 \(\hat{\theta}_1\) 代入 \(\tilde{\theta}_2(\theta_1)\),得到 \(\theta_2\) 的MLE \(\hat{\theta}_2=\tilde{\theta}_2(\hat{\theta}_1)\)
关键性质 1. 等价性:MLE存在唯一时,截面似然的最大值点与全局MLE的对应分量完全一致
2. 降维性:将 \(k=k_1+k_2\) 维优化问题,转化为 \(k_1\) 维优化问题,降低计算复杂度
3. 条件依赖性:\(\tilde{\theta}_2(\theta_1)\) 通常是 \(\theta_1\) 的函数,仅特殊模型下与固定参数无关
4. 本质区别:截面似然是对冗余参数最大化,边缘似然是对冗余参数积分,二者完全不同
核心应用场景 1. 简化多维参数的MLE求解:拆分高维参数,分步求解,避免复杂的高维方程组
2. 处理冗余参数:仅对目标参数做统计推断(假设检验、区间估计)时,消除冗余参数的影响
3. 复杂模型估计:广义线性模型、混合效应模型、生存分析模型等,常通过截面似然分步估计参数

补充说明与注意事项

  1. 截面似然不是严格意义上的“似然函数”(它不是样本概率密度的对数),但大样本下,它的渐近性质与真实似然一致,因此可以用于大样本统计推断。
  2. 定理的「MLE存在且唯一」是核心条件,若MLE不唯一,分步求解的结果可能与全局MLE不一致,使用时需注意。
  3. 参数拆分方式可以灵活选择,只要能简化计算,任意拆分方式都适用,这也是这个方法的灵活性所在。

posted on 2026-02-24 09:28  Indian_Mysore  阅读(1)  评论(0)    收藏  举报

导航