夫君子之行，静以修身，俭以养德；非澹泊无以明志，非宁静无以致远。夫学须静也，才须学也；非学无以广才，非志无以成学。怠慢则不能励精，险躁则不能冶性。年与时驰，意与岁去，遂成枯落，多不接世。悲守穷庐，将复何及！

3.3.4子集参数的似然（截面似然）

子集参数的似然（截面似然）知识点详解与推导证明

各位同学，今天我们来系统讲解子集参数的截面似然（Profile Likelihood） 这个核心知识点。它是最大似然估计（MLE）中处理多维参数、简化计算、解决冗余参数问题的核心工具，在数理统计的理论推导和实际应用中都有不可替代的作用。我会从背景铺垫、核心定义、例题推导、定理证明、性质总结五个维度，把这个知识点讲透。

一、背景铺垫：多维参数MLE的核心痛点

我们先回顾最大似然估计的核心思想：
对于总体 \(X \sim f(x;\theta)\)（\(f\) 为概率密度/分布律），样本 \(X_1,\dots,X_n\) 的联合对数似然函数为

\[L(\theta) = \log \prod_{i=1}^n f(x_i;\theta) = \sum_{i=1}^n \log f(x_i;\theta) \]

MLE \(\hat{\theta}\) 满足：\(L(\hat{\theta}) = \max_{\theta \in \Theta} L(\theta)\)，即让样本出现的概率最大的参数值。

当参数 \(\theta\) 是多维的，比如 \(\theta = (\theta_1,\theta_2)\)（\(\theta_1\) 是 \(k_1\) 维，\(\theta_2\) 是 \(k_2\) 维，总维度 \(k=k_1+k_2\)），直接求解全局MLE需要解 \(k\) 个方程的联立方程组，计算复杂度极高；甚至有时我们只关心其中一部分参数 \(\theta_1\)，另一部分 \(\theta_2\) 是不关心的冗余参数（Nuisance Parameter），我们希望把冗余参数消去，只针对目标参数做统计推断。

截面似然，就是为了解决这两个核心问题诞生的。

二、核心定义：截面似然（Profile Likelihood）

我们先给出严格的数学定义，再拆解定义的核心内涵。

定义3.3.3 截面似然

设总体 \(X \sim f(x;\theta)\)，参数 \(\theta = (\theta_1,\theta_2) \in \Theta = \Theta_1 \otimes \Theta_2\)（\(\Theta_1 \otimes \Theta_2\) 是参数空间的笛卡尔积，即 \(\theta_1 \in \Theta_1, \theta_2 \in \Theta_2\)），样本的对数似然函数为

\[L(\theta) = L(\theta_1,\theta_2) = \log f(x;\theta_1,\theta_2) \]

条件MLE：任意固定 \(\theta_1\) 时，\(L(\theta_1,\theta_2)\) 关于 \(\theta_2\) 的最大值点，称为固定 \(\theta_1\) 时 \(\theta_2\) 的条件MLE，记为 \(\tilde{\theta}_2(\theta_1)\)，满足：
\[L(\theta_1, \tilde{\theta}_2(\theta_1)) = \max_{\theta_2 \in \Theta_2} L(\theta_1,\theta_2) \]
截面似然：将条件MLE \(\tilde{\theta}_2(\theta_1)\) 代入对数似然函数，得到仅关于 \(\theta_1\) 的函数
\[L_p(\theta_1) = L(\theta_1, \tilde{\theta}_2(\theta_1)) = \max_{\theta_2 \in \Theta_2} L(\theta_1,\theta_2) \]
称 \(L_p(\theta_1)\) 为子集参数 \(\theta_1\) 的截面似然（轮廓似然）。

定义的核心内涵拆解

条件依赖性：\(\tilde{\theta}_2(\theta_1)\) 是 \(\theta_1\) 的函数——不同的 \(\theta_1\)，对应的 \(\theta_2\) 条件MLE不同，仅在特殊模型下（如正态分布）与固定参数无关。
降维本质：截面似然通过「固定目标参数、对冗余参数求最大值」的方式，把 \(k=k_1+k_2\) 维的优化问题，转化为 \(k_1\) 维的低维优化问题，大幅简化计算。
与边缘似然的本质区别：截面似然是对冗余参数最大化，而边缘似然是对冗余参数积分，二者完全不同，切勿混淆。

三、经典例题：正态分布参数的分步MLE推导

我们以最经典的正态分布为例，完整演示截面似然的计算过程，验证分步求解与全局MLE的一致性。

例题设定

设 \(X_1,\dots,X_n\) 独立同分布，\(X_1 \sim N(\mu,\sigma^2)\)，待估参数 \(\theta = (\mu,\sigma^2)\)。我们用截面似然的思路，分步求解 \(\mu\) 和 \(\sigma^2\) 的MLE。

步骤1：写出样本的对数似然函数

首先写出样本的联合概率密度：

\[f(x_1,\dots,x_n;\mu,\sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(x_i-\mu)^2}{2\sigma^2} \right\} \]

取对数得到对数似然函数：

\[\begin{align*} L(\mu,\sigma^2) &= \sum_{i=1}^n \left[ -\frac{1}{2}\log(2\pi\sigma^2) - \frac{(x_i-\mu)^2}{2\sigma^2} \right] \\ &= -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2 \end{align*} \]

这就是教材中的式(3.3.7)，是后续推导的基础。

步骤2：固定 \(\mu\)，求 \(\sigma^2\) 的条件MLE

我们把 \(\mu\) 固定，此时 \(L(\mu,\sigma^2)\) 是仅关于 \(\sigma^2\) 的函数。令 \(t=\sigma^2\)，则似然函数可写为：

\[L(t) = C - \frac{n}{2}\log t - \frac{1}{2t}\sum_{i=1}^n (x_i-\mu)^2 \]

其中 \(C=-\frac{n}{2}\log(2\pi)\) 是与 \(t\) 无关的常数。

对 \(t\) 求导并令导数为0（极值必要条件）：

\[\frac{\partial L}{\partial t} = -\frac{n}{2t} + \frac{\sum_{i=1}^n (x_i-\mu)^2}{2t^2} = 0 \]

两边同乘 \(2t^2\) 化简：

\[-nt + \sum_{i=1}^n (x_i-\mu)^2 = 0 \implies t = \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2 \]

因此，固定 \(\mu\) 时，\(\sigma^2\) 的条件MLE为：

\[\tilde{\sigma}^2(\mu) = \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2 \]

可以明显看到，这个估计是 \(\mu\) 的函数，\(\mu\) 变化，\(\tilde{\sigma}^2(\mu)\) 也会变化。

步骤3：构造 \(\mu\) 的截面似然，求 \(\mu\) 的MLE

将条件MLE \(\tilde{\sigma}^2(\mu)\) 代入对数似然函数，得到仅关于 \(\mu\) 的截面似然 \(L_p(\mu) = L(\mu, \tilde{\sigma}^2(\mu))\)。

代入计算：

\[\begin{align*} L_p(\mu) &= -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log\left( \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2 \right) - \frac{1}{2 \cdot \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2} \cdot \sum_{i=1}^n (x_i-\mu)^2 \\ &= -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log\left( \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2 \right) - \frac{n}{2} \end{align*} \]

观察上式：\(-\frac{n}{2}\log(2\pi)\)、\(-\frac{n}{2}\) 都是与 \(\mu\) 无关的常数。要最大化 \(L_p(\mu)\)，等价于最小化 \(\log\left( \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2 \right)\)，也就是最小化 \(\sum_{i=1}^n (x_i-\mu)^2\)。

根据最小二乘的结论，\(\sum_{i=1}^n (x_i-\mu)^2\) 的最小值在 \(\mu = \bar{X}\)（样本均值）处取得，因此 \(\mu\) 的MLE为：

\[\hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \]

步骤4：求 \(\sigma^2\) 的全局MLE

将 \(\hat{\mu}=\bar{X}\) 代入条件MLE \(\tilde{\sigma}^2(\mu)\)，得到 \(\sigma^2\) 的全局MLE：

\[\hat{\sigma}^2 = \tilde{\sigma}^2(\bar{X}) = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2 \]

这个结果，和我们直接对 \(\mu\)、\(\sigma^2\) 求偏导解方程组得到的全局MLE完全一致，验证了截面似然方法的有效性。

四、核心定理：分步MLE与全局MLE的等价性证明

刚才的例题验证了特殊模型下分步求解与全局MLE的一致性，接下来我们从理论上证明：在MLE存在且唯一的条件下，通过截面似然得到的估计，与全局MLE完全等价。

定理3.3.4 严格表述

设：

对数似然函数 \(L(\theta)\) 在参数空间 \(\Theta\) 上的全局MLE \(\hat{\theta} = (\hat{\theta}_1,\hat{\theta}_2)\) 存在且唯一；
截面似然 \(L_p(\theta_1) = L(\theta_1, \tilde{\theta}_2(\theta_1))\)，其中 \(\tilde{\theta}_2(\theta_1)\) 是固定 \(\theta_1\) 时 \(\theta_2\) 的条件MLE；
\(\hat{\theta}_1^*\) 是截面似然 \(L_p(\theta_1)\) 的最大值点，即 \(L_p(\hat{\theta}_1^*) = \max_{\theta_1 \in \Theta_1} L_p(\theta_1)\)，记 \(\hat{\theta}_2^* = \tilde{\theta}_2(\hat{\theta}_1^*)\)，\(\hat{\theta}^* = (\hat{\theta}_1^*, \hat{\theta}_2^*)\)。

则有：

\(\hat{\theta} = (\hat{\theta}_1,\hat{\theta}_2) = (\hat{\theta}_1^*, \hat{\theta}_2^*) = \hat{\theta}^*\)（分步估计与全局MLE完全相等）；
\(\tilde{\theta}_2(\hat{\theta}_1) = \hat{\theta}_2\)（全局 \(\theta_1\) 的MLE代入条件MLE，得到 \(\theta_2\) 的全局MLE）。

详细证明过程

证明结论(1)：\(\hat{\theta} = \hat{\theta}^*\)

证明的核心思路：要证明两个最大值点相等，利用「MLE的唯一性」，只需证明 \(\hat{\theta}^*\) 也是 \(L(\theta)\) 的全局最大值点，即 \(L(\hat{\theta}^*) \geq L(\theta)\) 对所有 \(\theta \in \Theta\) 成立。

我们分两步证明双向不等式：\(L(\hat{\theta}) \geq L(\hat{\theta}^*)\) 且 \(L(\hat{\theta}^*) \geq L(\hat{\theta})\)。

第一步：证明 \(L(\hat{\theta}) \geq L(\hat{\theta}^*)\)

这一步是显然的：
\(\hat{\theta}\) 是 \(L(\theta)\) 的全局最大值点，因此对任意 \(\theta \in \Theta\)，都有 \(L(\hat{\theta}) \geq L(\theta)\)。
而 \(\hat{\theta}^* = (\hat{\theta}_1^*, \hat{\theta}_2^*) \in \Theta\)，因此自然有 \(L(\hat{\theta}) \geq L(\hat{\theta}^*)\)。

第二步：证明 \(L(\hat{\theta}^*) \geq L(\hat{\theta})\)（核心步骤）

我们先证明更一般的结论：\(L(\hat{\theta}^*) \geq L(\theta)\) 对所有 \(\theta=(\theta_1,\theta_2) \in \Theta\) 成立。

由 \(\hat{\theta}_1^*\) 的定义（截面似然的最大值点），对任意 \(\theta_1 \in \Theta_1\)，有：

\[L_p(\hat{\theta}_1^*) \geq L_p(\theta_1) \]
由截面似然的定义 \(L_p(\theta_1) = L(\theta_1, \tilde{\theta}_2(\theta_1))\)，上式等价于：

\[L(\hat{\theta}_1^*, \tilde{\theta}_2(\hat{\theta}_1^*)) \geq L(\theta_1, \tilde{\theta}_2(\theta_1)), \quad \forall \theta_1 \in \Theta_1 \]
结合 \(\hat{\theta}_2^* = \tilde{\theta}_2(\hat{\theta}_1^*)\)，左边即为 \(L(\hat{\theta}^*)\)，因此：

\[L(\hat{\theta}^*) \geq L(\theta_1, \tilde{\theta}_2(\theta_1)), \quad \forall \theta_1 \in \Theta_1 \tag{1} \]
再由条件MLE \(\tilde{\theta}_2(\theta_1)\) 的定义：对固定的 \(\theta_1\)，\(\tilde{\theta}_2(\theta_1)\) 是 \(L(\theta_1,\theta_2)\) 的最大值点，因此对任意 \(\theta_2 \in \Theta_2\)，有：

\[L(\theta_1, \tilde{\theta}_2(\theta_1)) \geq L(\theta_1, \theta_2), \quad \forall \theta_2 \in \Theta_2 \tag{2} \]
结合(1)(2)两个不等式，对任意 \(\theta_1 \in \Theta_1\)、任意 \(\theta_2 \in \Theta_2\)，有：

\[L(\hat{\theta}^*) \geq L(\theta_1, \tilde{\theta}_2(\theta_1)) \geq L(\theta_1, \theta_2) \]
即：

\[L(\hat{\theta}^*) \geq L(\theta), \quad \forall \theta \in \Theta \]

这就说明，\(\hat{\theta}^*\) 是 \(L(\theta)\) 的一个全局最大值点。而定理条件中明确「全局MLE存在且唯一」，因此 \(\hat{\theta}^*\) 必须等于唯一的全局MLE \(\hat{\theta}\)，即 \(\hat{\theta} = \hat{\theta}^*\)。

证明结论(2)：\(\tilde{\theta}_2(\hat{\theta}_1) = \hat{\theta}_2\)

由结论(1)，我们已经得到 \(\hat{\theta}_1 = \hat{\theta}_1^*\)，\(\hat{\theta}_2 = \hat{\theta}_2^*\)。
而根据定义，\(\hat{\theta}_2^* = \tilde{\theta}_2(\hat{\theta}_1^*)\)，代入得：

\[\hat{\theta}_2 = \tilde{\theta}_2(\hat{\theta}_1) \]

结论得证。

定理的核心意义

理论保障：只要全局MLE存在且唯一，分步求解MLE的方法就是完全严谨的，和全局求解结果一致，我们可以放心地拆分参数、分步计算。
方法推广：这个结论可以推广到任意多维参数——比如 \(\theta=(\theta_1,\theta_2,\theta_3)\)，可以先固定 \(\theta_1,\theta_2\) 求 \(\theta_3\) 的条件MLE，再构造二维截面似然，再拆分求解，逐步降维。
推断价值：当仅关心部分参数时，截面似然可以消除冗余参数的影响，直接对目标参数做假设检验、区间估计，是高维统计推断的核心工具。

五、知识点归纳总结表

分类	详细内容
核心概念：截面似然（Profile Likelihood）	1. 设定：参数 \(\theta=(\theta_1,\theta_2) \in \Theta=\Theta_1 \otimes \Theta_2\)，\(\theta_1\) 为 \(k_1\) 维目标参数，\(\theta_2\) 为 \(k_2\) 维冗余/分步参数，样本对数似然 \(L(\theta)=L(\theta_1,\theta_2)=\log f(x;\theta_1,\theta_2)\) 2. 条件MLE：固定 \(\theta_1\) 时，\(\theta_2\) 的条件MLE \(\tilde{\theta}_2(\theta_1)\) 满足 \(L(\theta_1,\tilde{\theta}_2(\theta_1))=\max_{\theta_2 \in \Theta_2} L(\theta_1,\theta_2)\) 3. 截面似然定义：\(L_p(\theta_1) = L(\theta_1,\tilde{\theta}_2(\theta_1)) = \max_{\theta_2 \in \Theta_2} L(\theta_1,\theta_2)\)，是仅关于 \(\theta_1\) 的函数
核心定理（分步MLE与全局MLE等价性）	1. 条件：对数似然 \(L(\theta)\) 的全局MLE \(\hat{\theta}=(\hat{\theta}_1,\hat{\theta}_2)\) 存在且唯一；\(\hat{\theta}_1^\) 是截面似然 \(L_p(\theta_1)\) 的最大值点，\(\hat{\theta}_2^=\tilde{\theta}_2(\hat{\theta}_1^)\)，\(\hat{\theta}^=(\hat{\theta}_1^,\hat{\theta}_2^)\) 2. 结论： (1) \(\hat{\theta}=\hat{\theta}^*\)，即分步求解的MLE与全局MLE完全相等 (2) \(\tilde{\theta}_2(\hat{\theta}_1)=\hat{\theta}_2\)，即全局 \(\theta_1\) 的MLE代入条件MLE，得到 \(\theta_2\) 的全局MLE
截面似然计算与分步求MLE步骤	1. 写出样本的对数似然函数 \(L(\theta_1,\theta_2)\) 2. 固定 \(\theta_1\)，对 \(L\) 关于 \(\theta_2\) 求最大值，得到条件MLE \(\tilde{\theta}_2(\theta_1)\)（通常求导令偏导为0求解） 3. 将 \(\tilde{\theta}_2(\theta_1)\) 代入 \(L(\theta_1,\theta_2)\)，得到截面似然 \(L_p(\theta_1)\) 4. 对 \(L_p(\theta_1)\) 求最大值，得到 \(\theta_1\) 的MLE \(\hat{\theta}_1\) 5. 将 \(\hat{\theta}_1\) 代入 \(\tilde{\theta}_2(\theta_1)\)，得到 \(\theta_2\) 的MLE \(\hat{\theta}_2=\tilde{\theta}_2(\hat{\theta}_1)\)
关键性质	1. 等价性：MLE存在唯一时，截面似然的最大值点与全局MLE的对应分量完全一致 2. 降维性：将 \(k=k_1+k_2\) 维优化问题，转化为 \(k_1\) 维优化问题，降低计算复杂度 3. 条件依赖性：\(\tilde{\theta}_2(\theta_1)\) 通常是 \(\theta_1\) 的函数，仅特殊模型下与固定参数无关 4. 本质区别：截面似然是对冗余参数最大化，边缘似然是对冗余参数积分，二者完全不同
核心应用场景	1. 简化多维参数的MLE求解：拆分高维参数，分步求解，避免复杂的高维方程组 2. 处理冗余参数：仅对目标参数做统计推断（假设检验、区间估计）时，消除冗余参数的影响 3. 复杂模型估计：广义线性模型、混合效应模型、生存分析模型等，常通过截面似然分步估计参数

补充说明与注意事项

截面似然不是严格意义上的“似然函数”（它不是样本概率密度的对数），但大样本下，它的渐近性质与真实似然一致，因此可以用于大样本统计推断。
定理的「MLE存在且唯一」是核心条件，若MLE不唯一，分步求解的结果可能与全局MLE不一致，使用时需注意。
参数拆分方式可以灵活选择，只要能简化计算，任意拆分方式都适用，这也是这个方法的灵活性所在。

posted on 2026-02-24 09:28 Indian_Mysore 阅读(1) 评论(0) 收藏举报

刷新页面返回顶部

昆仑山:眼中无形心中有穴之穴人合一