数据预处理
数据预处理
数据清洗
-
缺失值处理
缺失值是一种典型的数据不完备情况
处理方法
-
丢弃整个样本
- 存在缺失值的样本在样本集的比例不大时有效
- 可能导致过拟合
-
用特殊值表示缺失
-
使用属性统计进行填充
数值型使用平均值,非数值型使用众数
-
已知属性的值去预测
-
分配所有可能的值
-
-
离群值检测
离群值是指那些与大多数样本有很大距离的数据样本
数据转换
-
数字化
-
离散化
-
正规化
-
Min-max正规化
将[lb,ub]映射到另一个范围[lb_new, lu_new],通常为[0, 1]或[-1, 1].假设一样本值为v,其归一化值 v ′ v' v′为
v ′ = v − l b u b − l b ( u b n e w − l b n e w ) + l b n e w v' = \cfrac{v - lb}{ub-lb}(ub_{new}-lb_{new}) + lb_{new} v′=ub−lbv−lb(ubnew−lbnew)+lbnew
-
Z-scrore正规化
设 V 服从 N ( u , σ 2 ) V服从N(u,\sigma^2) V服从N(u,σ2)转化为标准正态分布
v = v − u σ v= \cfrac{v - u}{\sigma} v=σv−u
-
十进制缩放正规化
使每个属性中的每个值的绝对值都小于1, 即使最大的数的绝对值小于1
-
数据压缩
可能使信息损失
降维
样本数量不变,属性减少
-
降维转换
-
特征选择
删除无关或相关属性,同时保持其他属性的相对独立属性不变
实例选择和采样
减少数据的样本量

浙公网安备 33010602011771号