机器学习特征工程:缩放、编码、聚合、嵌入与自动化

好模型的秘诀不在于更花哨的算法,而在于更好的特征。

🔢 第1部分:数值 特征

1、1 缩放

多数机器学习算法对尺度敏感。一个取值范围在0到1,000,000的列,会在训练中压制一个取值范围仅0到1的列。

常用的三种缩放器各有适用场景:StandardScaler适合近似正态分布的数据,也是最常见的选择;MinMaxScaler将值压缩到0和1之间,适合神经网络;RobustScaler基于中位数和四分位距(IQR)而非均值,在数据中存在明显异常值时更为稳健。

https://avoid.overfit.cn/post/18311991fa7f403c95cadf2d1352489b

posted @ 2026-04-06 21:18  deephub  阅读(2)  评论(0)    收藏  举报