特征预处理

1,特征分布

统计特征的频次分布。看一下特征是否符合正态分布,特征是不是大部分情况都为同一个值。

(数据分布)大部分时候特征并不符合正态分布,如果为了后续分析,可以考虑对数变换等操作转化成正态分布。

(覆盖度)特征是否大部分为同一个值,主要是考虑到某些特征有可能绝大多数都是同一个,这样的特征没有什么区分度,可以考虑去掉

 

 

2,特征缺失值处理

首先分析特征值缺失原因,主要分为两类

2.1 数据上报上来漏了

2.2 该特征在这个样本中缺失不存在

然后做相应的处理

针对数据上报上来漏了,我们可以用该特征的众数、均值等修复这个缺失值

针对本身就缺失,常常用0修补

 

当然如果样本量很多,我们可以直接剔除此类样本

 

 

3,异常值处理

异常值顾名思义,某些特征中的值异于其他样本。

3.1,如果某个特征值远远高于均值,可以用98%分位数数值替代该异常值

3.2,如果某些特征值出现一些不合常理,比如年龄小于0,查明原因,根据原因做出相应合理处理。当然如果不是很重要的特征,建议用众数,均值这样的数值代替就好。

 

4, 无量纲化

4.1 数据标准化 (x-u)/theta

4.2 缩放法[0,1]

 

5,离散化

比如年龄特征,通常我们可能会按年龄段来划分,比如婴儿期,幼儿园,小学,初中等等年龄来划分

 

6,dummy/one-hot

离散化的特征展开成0、1变量

 

7,特征之间以及特征与因变量相关性

需要主要特征分布,以及是否连续

具体可参考 http://blog.sina.com.cn/s/blog_44befaf601016r5o.html

对于自变量相关性强,比如相关系数大于0.8的,可以剔除其中一个

分析特征与因变量的相关性,主要是用于后续模型后,变量对因变量的一些解释问题。

 

posted @ 2018-07-24 15:30  echo_90  阅读(275)  评论(0)    收藏  举报