特征预处理

1，特征分布

统计特征的频次分布。看一下特征是否符合正态分布，特征是不是大部分情况都为同一个值。

（数据分布）大部分时候特征并不符合正态分布，如果为了后续分析，可以考虑对数变换等操作转化成正态分布。

（覆盖度）特征是否大部分为同一个值，主要是考虑到某些特征有可能绝大多数都是同一个，这样的特征没有什么区分度，可以考虑去掉

2，特征缺失值处理

首先分析特征值缺失原因，主要分为两类

2.1 数据上报上来漏了

2.2 该特征在这个样本中缺失不存在

然后做相应的处理

针对数据上报上来漏了，我们可以用该特征的众数、均值等修复这个缺失值

针对本身就缺失，常常用0修补

当然如果样本量很多，我们可以直接剔除此类样本

3，异常值处理

异常值顾名思义，某些特征中的值异于其他样本。

3.1，如果某个特征值远远高于均值，可以用98%分位数数值替代该异常值

3.2，如果某些特征值出现一些不合常理，比如年龄小于0，查明原因，根据原因做出相应合理处理。当然如果不是很重要的特征，建议用众数，均值这样的数值代替就好。

4，无量纲化

4.1 数据标准化 (x-u)/theta

4.2 缩放法[0,1]

5，离散化

比如年龄特征，通常我们可能会按年龄段来划分，比如婴儿期，幼儿园，小学，初中等等年龄来划分

6，dummy/one-hot

离散化的特征展开成0、1变量

7，特征之间以及特征与因变量相关性

需要主要特征分布，以及是否连续

具体可参考 http://blog.sina.com.cn/s/blog_44befaf601016r5o.html

对于自变量相关性强，比如相关系数大于0.8的，可以剔除其中一个

分析特征与因变量的相关性，主要是用于后续模型后，变量对因变量的一些解释问题。

posted @ 2018-07-24 15:30 echo_90 阅读(293) 评论(0) 收藏举报

刷新页面返回顶部

echo_90