数据dummy化

dummy variable是用0或1表示某个类别是否出现,常见于分类问题。

  1. 为什么要dummy化?
  • 若用数字1-12表示1-12月,那么就潜在表示了12月和1月差的很远,其实离的很近
  • 若用离散数字表示一地域,假如用数字1-23表示23个省,那么数字潜在的意思是,相邻的数字代表的省比较相似,差距的数字表示的省不相似,然而并没有这个意思。所以用单纯用离散的数字表示类别可能会影响后面回归或分类的精度
  1. 另外要注意的是,dummy化不要冗余,比如有1-23个省,我们用22个0,1变量就可以表示,若22个变量都是0则表示第23个省。
posted @ 2022-03-17 11:22  青梧成林2022  阅读(211)  评论(0)    收藏  举报