机器学习之降维方法

降维方法主要分为特征选择(Feature Selection)特征提取(Feature Extraction)两大类。

1. 特征选择(Feature Selection)

特征选择是从原始数据集中筛选出最有用的特征子集,而不改变这些特征本身。它的目标是移除不相关、冗余或噪声的特征,以提高模型的效率和性能。特征选择又可细分为三种方法:
 1)过滤式(Filter Methods)
过滤式方法在训练模型之前,根据特征与目标变量之间的统计关系进行评估和筛选
  • 优点: 计算简单,与具体模型无关,速度快。
  • 缺点: 忽略了特征之间的相互作用。
  • 常见算法:
    • 方差选择: 移除方差过低的特征。该方法通过计算每个特征的方差,并设定一个方差阈值(Variance Thresholding,剔除掉方差小于该阈值的所有特征
    • 卡方检验: 评估特征与类别之间的相关性。
    • 互信息(Mutual Information): 衡量特征与目标变量之间的信息量。
 2)封装式(Wrapper Methods)
封装式方法将特征选择的评估过程特定的机器学习模型结合起来。它通过尝试不同的特征子集,并根据模型的性能(如准确率)来评估特征的重要性。
  • 优点: 考虑到特征之间的相互作用,能找到更优的特征子集。
  • 缺点: 计算量大,速度慢。
  • 常见算法:
    • 递归特征消除(Recursive Feature Elimination, RFE): 反复训练模型,并逐次移除最不重要的特征。
    • 前向选择(Forward Selection): 从空集开始,逐步添加最有用的特征。
    • 后向选择(Backward Selection): 从所有特征开始,逐步移除最不重要的特征。 
 3)嵌入式(Embedded Methods)
嵌入式方法将特征选择过程融入到模型训练中,与模型学习过程同时进行 
  • 优点: 兼顾了模型性能和计算效率。
  • 缺点: 依赖于特定的模型。
  • 常见算法:
    • L1正则化(Lasso): 通过惩罚项使不重要特征的系数变为0,从而实现特征选择。
    • 决策树: 决策树算法本身会基于信息增益或基尼不纯度等指标来选择最重要的特征

2. 特征提取(Feature Extraction)

特征提取是通过数学变换,将原始特征组合或转换成一组全新的、数量更少的特征。这些新特征通常比原始特征更具信息量代表性
  • 优点: 能够创建全新的特征,可能比原始特征更能捕捉数据的本质。
  • 缺点: 新特征的可解释性较差。
  • 常见算法:
    • 主成分分析(Principle Component Analysis,PCA): 寻找数据中方差最大的正交方向(主成分),将数据投影到低维空间。
    • 线性判别分析(Linear Discriminant Analysis,LDA): 监督学习方法,旨在找到最佳投影方向,使得同类样本投影后尽可能近,不同类样本尽可能远。
    • 自动编码器(Autoencoder): 利用神经网络学习数据的压缩表示,然后从压缩表示中重构数据。
 
总结
 
方法
操作核心思想代表算法
特征选择 筛选原始特征子集。 保留最有用的原始特征。 过滤式封装式嵌入式。
特征提取 转换原始特征,生成新特征。 创造更具信息量的新特征。 PCA、LDA、自动编码器。
 
 参考:
 
 
posted @ 2025-10-30 15:14  PKICA  阅读(3)  评论(0)    收藏  举报