DAY 19 常见的特征筛选算法 - 指南

1.方差筛选
2.皮尔逊相关系数筛选
3.lasso 筛选
树模型重要性
5.shap 重要性
6.递归特征消除 REF

特征筛选:原理、手段与实践

核心概念:什么是特征筛选?为什么要这么做?

想象一下,原始数据(如 data.csv)如同一个人的全部信息,涵盖身高、体重、年龄、收入、爱好、有无车房等几十个特征。特征筛选的目标,是从这众多特征中挑出对解决问题(如预测信用违约)最有用的特征,去除无关紧要甚至有干扰的特征。

为什么要进行特征筛选?

  1. 提升模型性能和精度
  • 减少噪声:并非所有特征都有用,像“鞋码”与信用违约可能毫无关联,这类无关特征就是“噪声”,留存可能误导模型,降低预测准确性。
  • 避免过拟合:特征过多,模型易在训练数据上学得“太好”,记住训练数据的细节(包括噪声),但在新数据(测试集)上表现不佳。减少特征可降低模型复杂度,增强泛化能力。
  1. 提高模型训练效率

特征越少,计算的数据量越小。对于大型数据集和复杂模型,减少特征数量可大幅缩短训练时间,节省计算资源,在工业界尤为重要。

  1. 增强模型的可解释性

当模型输入仅含少数关键特征时,更易理解模型的决策方式。例如,若最终只剩“年收入”“破产次数”“信用分”三个特征,就能明确模型主要依据这三点判断信用风险,对业务分析和决策帮助很大。

特征筛选方式

方差筛选

from sklearn.feature_selection import VarianceThreshold  # 方差筛选工具,用于剔除方差小的特征
方差筛选?就是什么
  • 方差 (Variance):统计学中,方差衡量一组数据的离散程度或变化范围。
  • 方差大:特征数值在不同样本间变化大,波动剧烈。
  • 方差小:特征数值在所有样本中相近,几乎无变化。
  • 筛选逻辑
posted @ 2026-01-31 14:29  clnchanpin  阅读(36)  评论(0)    收藏  举报