特征预处理
1,特征分布
统计特征的频次分布。看一下特征是否符合正态分布,特征是不是大部分情况都为同一个值。
(数据分布)大部分时候特征并不符合正态分布,如果为了后续分析,可以考虑对数变换等操作转化成正态分布。
(覆盖度)特征是否大部分为同一个值,主要是考虑到某些特征有可能绝大多数都是同一个,这样的特征没有什么区分度,可以考虑去掉
2,特征缺失值处理
首先分析特征值缺失原因,主要分为两类
2.1 数据上报上来漏了
2.2 该特征在这个样本中缺失不存在
然后做相应的处理
针对数据上报上来漏了,我们可以用该特征的众数、均值等修复这个缺失值
针对本身就缺失,常常用0修补
当然如果样本量很多,我们可以直接剔除此类样本
3,异常值处理
异常值顾名思义,某些特征中的值异于其他样本。
3.1,如果某个特征值远远高于均值,可以用98%分位数数值替代该异常值
3.2,如果某些特征值出现一些不合常理,比如年龄小于0,查明原因,根据原因做出相应合理处理。当然如果不是很重要的特征,建议用众数,均值这样的数值代替就好。
4, 无量纲化
4.1 数据标准化 (x-u)/theta
4.2 缩放法[0,1]
5,离散化
比如年龄特征,通常我们可能会按年龄段来划分,比如婴儿期,幼儿园,小学,初中等等年龄来划分
6,dummy/one-hot
离散化的特征展开成0、1变量
7,特征之间以及特征与因变量相关性
需要主要特征分布,以及是否连续
具体可参考 http://blog.sina.com.cn/s/blog_44befaf601016r5o.html
对于自变量相关性强,比如相关系数大于0.8的,可以剔除其中一个
分析特征与因变量的相关性,主要是用于后续模型后,变量对因变量的一些解释问题。

浙公网安备 33010602011771号