特征提取之线性判别分析LDA

线性判别分析(Linear Discriminant Analysis, LDA)是一种经典的有监督学习方法。它既可以用于分类,也可以作为一种数据降维技术,其核心目标是找到一个最佳的线性变换(投影方向),使得数据在新的低维空间中具有最佳的可分性。

1. LDA核心原理

最大化类间分离,最小化类内差异
无监督的主成分分析(PCA)不同,LDA 利用数据的类别信息来指导降维过程。其基本思想可以概括为“高内聚,低耦合”:
  • 最大化类间方差(Between-class variance): 投影后,不同类别数据点的中心(均值)应尽可能远离。
  • 最小化类内方差(Within-class variance): 投影后,同一类别内的数据点应尽可能聚集在一起。
LDA 寻找的投影方向(判别向量)就是能最大化这个比值(类间方差/类内方差)的方向。

2. LDA 的主要特点

  • 有监督学习: 训练过程需要知道每个样本的类别标签。
  • 降维上限: 对于𝐾个类别的数据,LDA 最多能将数据降维到𝐾−1个维度。
  • 假设: LDA 假设数据符合高斯分布,并且不同类别的协方差矩阵相等。
  • 强调分类边界: 它的目标是优化分类性能,而不是像 PCA 那样最大化总数据方差。

3. LDA 与 PCA 的对比

特性
线性判别分析 (LDA)主成分分析 (PCA)
类型 有监督学习 无监督学习
目标 优化分类效果:最大化类间/最小化类内方差 最大化数据总方差,保留最多信息量
关注点 数据的可分性(类别信息) 数据的重构性和方差分布
应用场景 分类前的数据预处理、特征提取 数据压缩、去噪、可视化

4. 应用场景

LDA 广泛应用于需要区分不同类别数据的问题中,例如: 
  • 人脸识别: 用于提取有助于区分不同人脸的关键特征。
  • 生物信息学: 对基因表达数据进行分类,以识别不同的疾病状态。
  • 医学诊断: 根据临床数据预测患者属于哪种疾病类型。
  • 文本分类: 提取文本特征以区分不同的主题或情感(注意:在文本挖掘中,LDA也指代另一种无监督方法“隐含狄利克雷分布, Latent Dirichlet Allocation”,需区分)。

 

posted @ 2025-11-03 11:08  PKICA  阅读(11)  评论(0)    收藏  举报