机器学习特征工程：缩放、编码、聚合、嵌入与自动化

好模型的秘诀不在于更花哨的算法，而在于更好的特征。

🔢 第1部分：数值特征

多数机器学习算法对尺度敏感。一个取值范围在0到1,000,000的列，会在训练中压制一个取值范围仅0到1的列。

常用的三种缩放器各有适用场景：StandardScaler适合近似正态分布的数据，也是最常见的选择；MinMaxScaler将值压缩到0和1之间，适合神经网络；RobustScaler基于中位数和四分位距（IQR）而非均值，在数据中存在明显异常值时更为稳健。

posted @ 2026-04-06 21:18 deephub 阅读(16) 评论(0) 收藏举报

刷新页面返回顶部