机器学习特征工程:分类变量的数值化处理方法

编码是机器学习流程里最容易被低估的环节之一,模型没办法直接处理文本形式的分类数据,尺寸(Small/Medium/Large)、颜色(Red/Blue/Green)、城市、支付方式等都是典型的分类特征,必须转成数值才能输入到模型中。

那么问题来了:为什么不直接把 Red 编成 1,Blue 编成 2?这个做法看起来简单粗暴,但其实藏着大坑。下面用一个小数据集来说明。

 

https://avoid.overfit.cn/post/eeabb03fba684a88a6ccce132f4852b0

posted @ 2026-02-07 21:35  deephub  阅读(7)  评论(0)    收藏  举报