• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录

nunca

但行好事 莫问前程
  • 博客园
  • 联系
  • 订阅
  • 管理

公告

View Post

ML中类别数据处理

在做ML时,类别数据很常见,处理类别数据的方法分为以下几种情况:

1、当类别不多时并且value_counts差不多时,做 one-hot就好

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
var_to_encode = ['Device_Type','Filled_Form','Gender','Var1','Var2','Mobile_Verified','Source']
for col in var_to_encode:
    data[col] = le.fit_transform(data[col])

data = pd.get_dummies(data, columns=var_to_encode)
data.columns

  

2、但是有时候类型之间的value_count 其实很大,这是我们选取某几个类别,然后其余的小量都归结到 other 里面去,

data['Source'] = data['Source'].apply(lambda x: 'others' if x not in ['S122','S133'] else x)
data['Source'].value_counts()

  

既然无论如何时间都会过去,为什么不选择做些有意义的事情呢

posted on 2018-07-13 13:33  乐晓东随笔  阅读(168)  评论(0)    收藏  举报

刷新页面返回顶部
 
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3