实用指南:二型最大似然(Type II Maximum Likelihood):概述与核心概念

本文由「大千AI助手」原创发布,专注用真话讲AI,回归工艺本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

“二型最大似然”(Type II Maximum Likelihood)通常与经验贝叶斯方法(Empirical Bayes Methods)相关联,特别是当它涉及对超参数(hyperparameters)进行估计时。在传统最大似然估计(MLE,有时被称为Type I MLE)中,我们直接估计模型参数θ,使得观测数据D的似然P(D | θ)最大化。而Type II MLE则更进一步,用于估计层次模型(hierarchical models)贝叶斯模型中的超参数。

具体来说,考虑一个两层模型:

  1. 第一层:参数θ由某个先验分布生成,该先验分布由超参数η控制,即θ ∼ P(θ | η)。
  2. 第二层:观测内容D由参数θ生成,即D ∼ P(D | θ)。

Type II MLE的目标是找到超参数η,使得观测数据的边际似然(marginal likelihood)证据(evidence)最大化。这个边际似然是通过将参数θ积分掉得到的:
P ( D ∣ η ) = ∫ P ( D ∣ θ ) P ( θ ∣ η ) d θ P(D | \eta) = \int P(D | \theta) P(\theta | \eta) d\thetaP(Dη)=P(Dθ)P(θη)dθ
然后,我们最大化该边际似然:η ^ M L E = arg ⁡ max ⁡ η P ( D ∣ η ) \hat{\eta}_{MLE} = \arg\max_{\eta} P(D | \eta)η^MLE=argmaxηP(Dη)

一旦找到了超参数的估计值η ^ \hat{\eta}η^,我们就可以将其用于后续的贝叶斯推断,例如计算参数的后验分布P ( θ ∣ D , η ^ ) P(\theta | D, \hat{\eta})P(θD,η^)


本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

二型最大似然 vs. 一型最大似然

为了更清晰地理解二型最大似然,让我们将它和经典的一型最大似然估计(Type I MLE)放在一个表格里对比一下:

特征一型最大似然估计 (Type I MLE)二型最大似然估计 (Type II MLE)
估计对象模型参数 θ超参数 η
目标函数似然函数 P(D∣θ)边际似然(证据) P(D∣η) = ∫P(D∣θ)P(θ∣η)dθ
主要应用频率统计学中的参数估计经验贝叶斯手段、多层模型、超参数优化
不确定性仅基于数据,未考虑参数先验通过引入超参数先验,部分考虑了参数的不确定性
计算复杂度通常较低通常较高,因为需要计算积分(或近似)

二型最大似然的数学形式与计算

最大化边际似然就是Type II MLE的核心P ( D ∣ η ) P(D | \eta)P(Dη)。计算该积分往往是极具挑战性的在高维或复杂模型中。因此,实践中常常采用就是,特别近似方法

  1. 解析近似
  • 当先验 P ( θ ∣ η ) P(\theta | \eta)P(θη) 和似然 P ( D ∣ θ ) P(D | \theta)P(Dθ)共轭(conjugate)的时候,边际似然P ( D ∣ η ) P(D | \eta)P(Dη)有时可以有解析解。这是最理想的情况。
  • 高斯分布,那么边际似然同样有高斯形式。就是例如,在高斯-高斯模型中,均值的先验是高斯分布,似然也
  1. 数值积分
  • 当参数θ的维度不高时,可以使用数值积分办法来计算边际似然。但在高维情况下,数值积分会变得非常困难。
  1. 期望最大化算法(EM Algorithm)
  • EM算法是求解Type II MLE极其强大的工具。 在讨论一般II型逐步删失资料下的统计推断时,就提到了将EM算法用于计算极大似然估计。
  • 在E步中,计算在给定当前超参数η和观测数据D的条件下,潜在变量θ的后验期望。
  • 在M步中,更新超参数η以最大化这个期望。
  1. 变分近似(Variational Approximation)
  • 变分法经过寻找一个易于处理的分布来近似真实的后验分布,从而简化边际似然的计算。
  1. 马尔可夫链蒙特卡洛(MCMC)
  • 虽然MCMC通常用于从后验分布中抽样,但也可以用于边缘似然的估计(尽管这可能很有挑战性)。 的摘要中提到了在Type-II删失下使用Gibbs抽样(一种MCMC方法)进行贝叶斯推断。

二型最大似然的应用场景

二型最大似然估计在许多机器学习和统计学领域都有广泛应用:

  • 自动相关性确定(Automatic Relevance Determination, ARD) / 稀疏贝叶斯学习:在回归或分类模型中,为权重引入具有可调节尺度参数(超参数)的先验(如高斯先验)。Type II MLE用于估计这些超参数。许多超参数会趋向于无穷大,使得对应的权重后验集中 around zero,从而实现稀疏性特征选择。这与Relevance Vector Machine (RVM)的核心思想紧密相关。

  • 高斯过程(Gaussian Processes):高斯过程的性能很大程度上依赖于核函数(kernel function)的选择及其超参数(如长度尺度length-scale)。Type II MLE可用于通过最大化边际似然来学习这些超参数。

  • 贝叶斯神经网络(Bayesian Neural Networks):允许为神经网络的权重设置先验分布(如高斯先验),并使用Type II MLE来估计先验的超参数(如方差)。

  • 处理删失数据(Censored Data):如和所述,在可靠性工程和生存分析中,经常会遇到II型删失(Type-II Censoring)数据。Type II MLE(在此语境下可指在II型删失方案下进行的标准最大似然估计,但思想与超参数估计的Type II MLE有相通之处)可用于估计模型参数。

  • 经验贝叶斯途径:这可以说是Type II MLE最直接的应用领域。通过从数据中估计超参数,而不是完全主观地指定它们,完成了“让信息说话”的贝叶斯分析。


✅ 二型最大似然的优势与局限

优势(Strengths):
  • 平衡点:它在纯贝叶斯方法(需要完全指定所有先验)和纯频率主义手段(忽略先验信息)之间提供了一个良好的折衷。
  • 正则化与防止过拟合:通过引入超参数先验并进行积分,Type II MLE具有天然的正则化效果,有助于防止模型过拟合,尤其是在高维模型中。
  • 自动化:它可以自动化地学习一些主要的超参数,减少了对繁琐的手动调参的依赖。
局限性和挑战(Limitations and Challenges):
  • 计算复杂性:计算边际似然P ( D ∣ η ) P(D | \eta)P(Dη)通常是困难且计算密集型的,必须依赖近似方法。
  • 过拟合风险:虽然旨在防止过拟合,但要是超参数模型本身非常灵活,且内容有限,边际似然P ( D ∣ η ) P(D | \eta)P(Dη) 本身也可能对超参数η过拟合
  • 点估计:Type II MLE最终为超参数η提供了一个点估计完整的后验分布就是,而不P ( η ∣ D ) P(\eta | D)P(ηD)。这忽略了η本身的不确定性。完全贝叶斯方法会将超先验(hyperprior)施加于η并对其进行积分,但这会使计算更加复杂。

一个简单例子:高斯分布中的均值估计

假设大家有一组观测数据D = { x 1 , x 2 , . . . , x n } D = \{x_1, x_2, ..., x_n\}D={x1,x2,...,xn},我们假设它们来自一个高斯分布x i ∼ N ( θ , σ 2 ) x_i \sim \mathcal{N}(\theta, \sigma^2)xiN(θ,σ2),其中方差 σ 2 \sigma^2σ2 已知。

  • Type I MLE样本均值:就是:直接估计参数θ。结果θ ^ M L E = 1 n ∑ i = 1 n x i \hat{\theta}_{MLE} = \frac{1}{n} \sum_{i=1}^n x_iθ^MLE=n1i=1nxi
  • Type II MLE (经验贝叶斯)一个高斯分布就是:我们为θ设置一个先验分布,假设它也θ ∼ N ( μ , τ 2 ) \theta \sim \mathcal{N}(\mu, \tau^2)θN(μ,τ2)。这里 (μ, τ²)就是超参数η就。目标是最大化边际似然P ( D ∣ μ , τ 2 ) = ∫ N ( D ∣ θ , σ 2 ) N ( θ ∣ μ , τ 2 ) d θ P(D | \mu, \tau^2) = \int \mathcal{N}(D | \theta, \sigma^2) \mathcal{N}(\theta | \mu, \tau^2) d\thetaP(Dμ,τ2)=N(Dθ,σ2)N(θμ,τ2)dθ一个高斯分布)。我们可以找到使这个边际高斯分布似然最大的就是。这个积分有解析解(结果也μ \muμτ 2 \tau^2τ2。之后,大家可以使用估计出的μ ^ \hat{\mu}μ^τ ^ 2 \hat{\tau}^2τ^2来计算θ的后验分布P ( θ ∣ D , μ ^ , τ ^ 2 ) P(\theta | D, \hat{\mu}, \hat{\tau}^2)P(θD,μ^,τ^2),后验均值会介于样本均值θ ^ M L E \hat{\theta}_{MLE}θ^MLE和超参数先验均值μ ^ \hat{\mu}μ^之间,起到了收缩(shrinkage)的效果。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归手艺本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI科技!

posted on 2025-10-12 19:07  slgkaifa  阅读(43)  评论(0)    收藏  举报

导航