别只会One-Hot了!20种分类编码技巧让你的特征工程更专业

机器学习模型处理不了原始文本。无论是线性回归、XGBoost还是神经网络,遇到

  1. "red"

  1. "medium"

  1. "CA"

这类分类变量都没法直接处理。所以必须把它们转成数字这个过程就是分类编码。

大家入门时肯定都学过独热编码或序数编码,但编码方法其实非常多。目标编码、CatBoost编码、James-Stein编码这些高级技术,用对了能给模型带来质的飞跃,尤其面对高基数特征的时候。

 

https://avoid.overfit.cn/post/899f24e435ac4733ac4b981a0b3629f4

posted @ 2025-12-10 21:50  deephub  阅读(6)  评论(0)    收藏  举报