3.3.4子集参数的似然(截面似然)
子集参数的似然(截面似然)知识点详解与推导证明
各位同学,今天我们来系统讲解子集参数的截面似然(Profile Likelihood) 这个核心知识点。它是最大似然估计(MLE)中处理多维参数、简化计算、解决冗余参数问题的核心工具,在数理统计的理论推导和实际应用中都有不可替代的作用。我会从背景铺垫、核心定义、例题推导、定理证明、性质总结五个维度,把这个知识点讲透。
一、背景铺垫:多维参数MLE的核心痛点
我们先回顾最大似然估计的核心思想:
对于总体 \(X \sim f(x;\theta)\)(\(f\) 为概率密度/分布律),样本 \(X_1,\dots,X_n\) 的联合对数似然函数为
MLE \(\hat{\theta}\) 满足:\(L(\hat{\theta}) = \max_{\theta \in \Theta} L(\theta)\),即让样本出现的概率最大的参数值。
当参数 \(\theta\) 是多维的,比如 \(\theta = (\theta_1,\theta_2)\)(\(\theta_1\) 是 \(k_1\) 维,\(\theta_2\) 是 \(k_2\) 维,总维度 \(k=k_1+k_2\)),直接求解全局MLE需要解 \(k\) 个方程的联立方程组,计算复杂度极高;甚至有时我们只关心其中一部分参数 \(\theta_1\),另一部分 \(\theta_2\) 是不关心的冗余参数(Nuisance Parameter),我们希望把冗余参数消去,只针对目标参数做统计推断。
截面似然,就是为了解决这两个核心问题诞生的。
二、核心定义:截面似然(Profile Likelihood)
我们先给出严格的数学定义,再拆解定义的核心内涵。
定义3.3.3 截面似然
设总体 \(X \sim f(x;\theta)\),参数 \(\theta = (\theta_1,\theta_2) \in \Theta = \Theta_1 \otimes \Theta_2\)(\(\Theta_1 \otimes \Theta_2\) 是参数空间的笛卡尔积,即 \(\theta_1 \in \Theta_1, \theta_2 \in \Theta_2\)),样本的对数似然函数为
- 条件MLE:任意固定 \(\theta_1\) 时,\(L(\theta_1,\theta_2)\) 关于 \(\theta_2\) 的最大值点,称为固定 \(\theta_1\) 时 \(\theta_2\) 的条件MLE,记为 \(\tilde{\theta}_2(\theta_1)\),满足:\[L(\theta_1, \tilde{\theta}_2(\theta_1)) = \max_{\theta_2 \in \Theta_2} L(\theta_1,\theta_2) \]
- 截面似然:将条件MLE \(\tilde{\theta}_2(\theta_1)\) 代入对数似然函数,得到仅关于 \(\theta_1\) 的函数\[L_p(\theta_1) = L(\theta_1, \tilde{\theta}_2(\theta_1)) = \max_{\theta_2 \in \Theta_2} L(\theta_1,\theta_2) \]称 \(L_p(\theta_1)\) 为子集参数 \(\theta_1\) 的截面似然(轮廓似然)。
定义的核心内涵拆解
- 条件依赖性:\(\tilde{\theta}_2(\theta_1)\) 是 \(\theta_1\) 的函数——不同的 \(\theta_1\),对应的 \(\theta_2\) 条件MLE不同,仅在特殊模型下(如正态分布)与固定参数无关。
- 降维本质:截面似然通过「固定目标参数、对冗余参数求最大值」的方式,把 \(k=k_1+k_2\) 维的优化问题,转化为 \(k_1\) 维的低维优化问题,大幅简化计算。
- 与边缘似然的本质区别:截面似然是对冗余参数最大化,而边缘似然是对冗余参数积分,二者完全不同,切勿混淆。
三、经典例题:正态分布参数的分步MLE推导
我们以最经典的正态分布为例,完整演示截面似然的计算过程,验证分步求解与全局MLE的一致性。
例题设定
设 \(X_1,\dots,X_n\) 独立同分布,\(X_1 \sim N(\mu,\sigma^2)\),待估参数 \(\theta = (\mu,\sigma^2)\)。我们用截面似然的思路,分步求解 \(\mu\) 和 \(\sigma^2\) 的MLE。
步骤1:写出样本的对数似然函数
首先写出样本的联合概率密度:
取对数得到对数似然函数:
这就是教材中的式(3.3.7),是后续推导的基础。
步骤2:固定 \(\mu\),求 \(\sigma^2\) 的条件MLE
我们把 \(\mu\) 固定,此时 \(L(\mu,\sigma^2)\) 是仅关于 \(\sigma^2\) 的函数。令 \(t=\sigma^2\),则似然函数可写为:
其中 \(C=-\frac{n}{2}\log(2\pi)\) 是与 \(t\) 无关的常数。
对 \(t\) 求导并令导数为0(极值必要条件):
两边同乘 \(2t^2\) 化简:
因此,固定 \(\mu\) 时,\(\sigma^2\) 的条件MLE为:
可以明显看到,这个估计是 \(\mu\) 的函数,\(\mu\) 变化,\(\tilde{\sigma}^2(\mu)\) 也会变化。
步骤3:构造 \(\mu\) 的截面似然,求 \(\mu\) 的MLE
将条件MLE \(\tilde{\sigma}^2(\mu)\) 代入对数似然函数,得到仅关于 \(\mu\) 的截面似然 \(L_p(\mu) = L(\mu, \tilde{\sigma}^2(\mu))\)。
代入计算:
观察上式:\(-\frac{n}{2}\log(2\pi)\)、\(-\frac{n}{2}\) 都是与 \(\mu\) 无关的常数。要最大化 \(L_p(\mu)\),等价于最小化 \(\log\left( \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2 \right)\),也就是最小化 \(\sum_{i=1}^n (x_i-\mu)^2\)。
根据最小二乘的结论,\(\sum_{i=1}^n (x_i-\mu)^2\) 的最小值在 \(\mu = \bar{X}\)(样本均值)处取得,因此 \(\mu\) 的MLE为:
步骤4:求 \(\sigma^2\) 的全局MLE
将 \(\hat{\mu}=\bar{X}\) 代入条件MLE \(\tilde{\sigma}^2(\mu)\),得到 \(\sigma^2\) 的全局MLE:
这个结果,和我们直接对 \(\mu\)、\(\sigma^2\) 求偏导解方程组得到的全局MLE完全一致,验证了截面似然方法的有效性。
四、核心定理:分步MLE与全局MLE的等价性证明
刚才的例题验证了特殊模型下分步求解与全局MLE的一致性,接下来我们从理论上证明:在MLE存在且唯一的条件下,通过截面似然得到的估计,与全局MLE完全等价。
定理3.3.4 严格表述
设:
- 对数似然函数 \(L(\theta)\) 在参数空间 \(\Theta\) 上的全局MLE \(\hat{\theta} = (\hat{\theta}_1,\hat{\theta}_2)\) 存在且唯一;
- 截面似然 \(L_p(\theta_1) = L(\theta_1, \tilde{\theta}_2(\theta_1))\),其中 \(\tilde{\theta}_2(\theta_1)\) 是固定 \(\theta_1\) 时 \(\theta_2\) 的条件MLE;
- \(\hat{\theta}_1^*\) 是截面似然 \(L_p(\theta_1)\) 的最大值点,即 \(L_p(\hat{\theta}_1^*) = \max_{\theta_1 \in \Theta_1} L_p(\theta_1)\),记 \(\hat{\theta}_2^* = \tilde{\theta}_2(\hat{\theta}_1^*)\),\(\hat{\theta}^* = (\hat{\theta}_1^*, \hat{\theta}_2^*)\)。
则有:
- \(\hat{\theta} = (\hat{\theta}_1,\hat{\theta}_2) = (\hat{\theta}_1^*, \hat{\theta}_2^*) = \hat{\theta}^*\)(分步估计与全局MLE完全相等);
- \(\tilde{\theta}_2(\hat{\theta}_1) = \hat{\theta}_2\)(全局 \(\theta_1\) 的MLE代入条件MLE,得到 \(\theta_2\) 的全局MLE)。
详细证明过程
证明结论(1):\(\hat{\theta} = \hat{\theta}^*\)
证明的核心思路:要证明两个最大值点相等,利用「MLE的唯一性」,只需证明 \(\hat{\theta}^*\) 也是 \(L(\theta)\) 的全局最大值点,即 \(L(\hat{\theta}^*) \geq L(\theta)\) 对所有 \(\theta \in \Theta\) 成立。
我们分两步证明双向不等式:\(L(\hat{\theta}) \geq L(\hat{\theta}^*)\) 且 \(L(\hat{\theta}^*) \geq L(\hat{\theta})\)。
第一步:证明 \(L(\hat{\theta}) \geq L(\hat{\theta}^*)\)
这一步是显然的:
\(\hat{\theta}\) 是 \(L(\theta)\) 的全局最大值点,因此对任意 \(\theta \in \Theta\),都有 \(L(\hat{\theta}) \geq L(\theta)\)。
而 \(\hat{\theta}^* = (\hat{\theta}_1^*, \hat{\theta}_2^*) \in \Theta\),因此自然有 \(L(\hat{\theta}) \geq L(\hat{\theta}^*)\)。
第二步:证明 \(L(\hat{\theta}^*) \geq L(\hat{\theta})\)(核心步骤)
我们先证明更一般的结论:\(L(\hat{\theta}^*) \geq L(\theta)\) 对所有 \(\theta=(\theta_1,\theta_2) \in \Theta\) 成立。
-
由 \(\hat{\theta}_1^*\) 的定义(截面似然的最大值点),对任意 \(\theta_1 \in \Theta_1\),有:
\[L_p(\hat{\theta}_1^*) \geq L_p(\theta_1) \] -
由截面似然的定义 \(L_p(\theta_1) = L(\theta_1, \tilde{\theta}_2(\theta_1))\),上式等价于:
\[L(\hat{\theta}_1^*, \tilde{\theta}_2(\hat{\theta}_1^*)) \geq L(\theta_1, \tilde{\theta}_2(\theta_1)), \quad \forall \theta_1 \in \Theta_1 \]结合 \(\hat{\theta}_2^* = \tilde{\theta}_2(\hat{\theta}_1^*)\),左边即为 \(L(\hat{\theta}^*)\),因此:
\[L(\hat{\theta}^*) \geq L(\theta_1, \tilde{\theta}_2(\theta_1)), \quad \forall \theta_1 \in \Theta_1 \tag{1} \] -
再由条件MLE \(\tilde{\theta}_2(\theta_1)\) 的定义:对固定的 \(\theta_1\),\(\tilde{\theta}_2(\theta_1)\) 是 \(L(\theta_1,\theta_2)\) 的最大值点,因此对任意 \(\theta_2 \in \Theta_2\),有:
\[L(\theta_1, \tilde{\theta}_2(\theta_1)) \geq L(\theta_1, \theta_2), \quad \forall \theta_2 \in \Theta_2 \tag{2} \] -
结合(1)(2)两个不等式,对任意 \(\theta_1 \in \Theta_1\)、任意 \(\theta_2 \in \Theta_2\),有:
\[L(\hat{\theta}^*) \geq L(\theta_1, \tilde{\theta}_2(\theta_1)) \geq L(\theta_1, \theta_2) \]即:
\[L(\hat{\theta}^*) \geq L(\theta), \quad \forall \theta \in \Theta \]
这就说明,\(\hat{\theta}^*\) 是 \(L(\theta)\) 的一个全局最大值点。而定理条件中明确「全局MLE存在且唯一」,因此 \(\hat{\theta}^*\) 必须等于唯一的全局MLE \(\hat{\theta}\),即 \(\hat{\theta} = \hat{\theta}^*\)。
证明结论(2):\(\tilde{\theta}_2(\hat{\theta}_1) = \hat{\theta}_2\)
由结论(1),我们已经得到 \(\hat{\theta}_1 = \hat{\theta}_1^*\),\(\hat{\theta}_2 = \hat{\theta}_2^*\)。
而根据定义,\(\hat{\theta}_2^* = \tilde{\theta}_2(\hat{\theta}_1^*)\),代入得:
结论得证。
定理的核心意义
- 理论保障:只要全局MLE存在且唯一,分步求解MLE的方法就是完全严谨的,和全局求解结果一致,我们可以放心地拆分参数、分步计算。
- 方法推广:这个结论可以推广到任意多维参数——比如 \(\theta=(\theta_1,\theta_2,\theta_3)\),可以先固定 \(\theta_1,\theta_2\) 求 \(\theta_3\) 的条件MLE,再构造二维截面似然,再拆分求解,逐步降维。
- 推断价值:当仅关心部分参数时,截面似然可以消除冗余参数的影响,直接对目标参数做假设检验、区间估计,是高维统计推断的核心工具。
五、知识点归纳总结表
| 分类 | 详细内容 |
|---|---|
| 核心概念:截面似然(Profile Likelihood) | 1. 设定:参数 \(\theta=(\theta_1,\theta_2) \in \Theta=\Theta_1 \otimes \Theta_2\),\(\theta_1\) 为 \(k_1\) 维目标参数,\(\theta_2\) 为 \(k_2\) 维冗余/分步参数,样本对数似然 \(L(\theta)=L(\theta_1,\theta_2)=\log f(x;\theta_1,\theta_2)\) 2. 条件MLE:固定 \(\theta_1\) 时,\(\theta_2\) 的条件MLE \(\tilde{\theta}_2(\theta_1)\) 满足 \(L(\theta_1,\tilde{\theta}_2(\theta_1))=\max_{\theta_2 \in \Theta_2} L(\theta_1,\theta_2)\) 3. 截面似然定义:\(L_p(\theta_1) = L(\theta_1,\tilde{\theta}_2(\theta_1)) = \max_{\theta_2 \in \Theta_2} L(\theta_1,\theta_2)\),是仅关于 \(\theta_1\) 的函数 |
| 核心定理(分步MLE与全局MLE等价性) | 1. 条件:对数似然 \(L(\theta)\) 的全局MLE \(\hat{\theta}=(\hat{\theta}_1,\hat{\theta}_2)\) 存在且唯一;\(\hat{\theta}_1^*\) 是截面似然 \(L_p(\theta_1)\) 的最大值点,\(\hat{\theta}_2^*=\tilde{\theta}_2(\hat{\theta}_1^*)\),\(\hat{\theta}^*=(\hat{\theta}_1^*,\hat{\theta}_2^*)\) 2. 结论: (1) \(\hat{\theta}=\hat{\theta}^*\),即分步求解的MLE与全局MLE完全相等 (2) \(\tilde{\theta}_2(\hat{\theta}_1)=\hat{\theta}_2\),即全局 \(\theta_1\) 的MLE代入条件MLE,得到 \(\theta_2\) 的全局MLE |
| 截面似然计算与分步求MLE步骤 | 1. 写出样本的对数似然函数 \(L(\theta_1,\theta_2)\) 2. 固定 \(\theta_1\),对 \(L\) 关于 \(\theta_2\) 求最大值,得到条件MLE \(\tilde{\theta}_2(\theta_1)\)(通常求导令偏导为0求解) 3. 将 \(\tilde{\theta}_2(\theta_1)\) 代入 \(L(\theta_1,\theta_2)\),得到截面似然 \(L_p(\theta_1)\) 4. 对 \(L_p(\theta_1)\) 求最大值,得到 \(\theta_1\) 的MLE \(\hat{\theta}_1\) 5. 将 \(\hat{\theta}_1\) 代入 \(\tilde{\theta}_2(\theta_1)\),得到 \(\theta_2\) 的MLE \(\hat{\theta}_2=\tilde{\theta}_2(\hat{\theta}_1)\) |
| 关键性质 | 1. 等价性:MLE存在唯一时,截面似然的最大值点与全局MLE的对应分量完全一致 2. 降维性:将 \(k=k_1+k_2\) 维优化问题,转化为 \(k_1\) 维优化问题,降低计算复杂度 3. 条件依赖性:\(\tilde{\theta}_2(\theta_1)\) 通常是 \(\theta_1\) 的函数,仅特殊模型下与固定参数无关 4. 本质区别:截面似然是对冗余参数最大化,边缘似然是对冗余参数积分,二者完全不同 |
| 核心应用场景 | 1. 简化多维参数的MLE求解:拆分高维参数,分步求解,避免复杂的高维方程组 2. 处理冗余参数:仅对目标参数做统计推断(假设检验、区间估计)时,消除冗余参数的影响 3. 复杂模型估计:广义线性模型、混合效应模型、生存分析模型等,常通过截面似然分步估计参数 |
补充说明与注意事项
- 截面似然不是严格意义上的“似然函数”(它不是样本概率密度的对数),但大样本下,它的渐近性质与真实似然一致,因此可以用于大样本统计推断。
- 定理的「MLE存在且唯一」是核心条件,若MLE不唯一,分步求解的结果可能与全局MLE不一致,使用时需注意。
- 参数拆分方式可以灵活选择,只要能简化计算,任意拆分方式都适用,这也是这个方法的灵活性所在。
posted on 2026-02-24 09:28 Indian_Mysore 阅读(1) 评论(0) 收藏 举报
浙公网安备 33010602011771号