数据预处理
数据预处理
数据清洗
-  
缺失值处理
缺失值是一种典型的数据不完备情况
处理方法
-  
丢弃整个样本
- 存在缺失值的样本在样本集的比例不大时有效
 - 可能导致过拟合
 
 -  
用特殊值表示缺失
 -  
使用属性统计进行填充
数值型使用平均值,非数值型使用众数
 -  
已知属性的值去预测
 -  
分配所有可能的值
 
 -  
 -  
离群值检测
离群值是指那些与大多数样本有很大距离的数据样本
 
数据转换
-  
数字化
 -  
离散化
 -  
正规化
-  
Min-max正规化
将[lb,ub]映射到另一个范围[lb_new, lu_new],通常为[0, 1]或[-1, 1].假设一样本值为v,其归一化值 v ′ v' v′为
v ′ = v − l b u b − l b ( u b n e w − l b n e w ) + l b n e w v' = \cfrac{v - lb}{ub-lb}(ub_{new}-lb_{new}) + lb_{new} v′=ub−lbv−lb(ubnew−lbnew)+lbnew
 -  
Z-scrore正规化
设 V 服从 N ( u , σ 2 ) V服从N(u,\sigma^2) V服从N(u,σ2)转化为标准正态分布
v = v − u σ v= \cfrac{v - u}{\sigma} v=σv−u
 -  
十进制缩放正规化
使每个属性中的每个值的绝对值都小于1, 即使最大的数的绝对值小于1
 
 -  
 
数据压缩
可能使信息损失
降维
样本数量不变,属性减少
-  
降维转换
 -  
特征选择
删除无关或相关属性,同时保持其他属性的相对独立属性不变
 
实例选择和采样
减少数据的样本量

                
            
        
浙公网安备 33010602011771号