数据预处理

数据预处理

数据清洗

缺失值处理

缺失值是一种典型的数据不完备情况

处理方法
1. 丢弃整个样本
  - 存在缺失值的样本在样本集的比例不大时有效
  - 可能导致过拟合
2. 用特殊值表示缺失
3. 使用属性统计进行填充
  
  数值型使用平均值，非数值型使用众数
4. 已知属性的值去预测
5. 分配所有可能的值
离群值检测

离群值是指那些与大多数样本有很大距离的数据样本

数据转换

数字化
离散化
正规化
- Min-max正规化
  
  将[lb,ub]映射到另一个范围[lb_new, lu_new],通常为[0, 1]或[-1, 1].假设一样本值为v，其归一化值 $v^{'}$ 为
  
  $\cfrac{v - lb}{ub-lb}(ub_{new}-lb_{new}) + lb_{new}$
- Z-scrore正规化
  
  设 $V服从N(u,\sigma^2)$ 转化为标准正态分布
  
  $\cfrac{v - u}{\sigma}$
- 十进制缩放正规化
  
  使每个属性中的每个值的绝对值都小于1，即使最大的数的绝对值小于1

数据压缩

可能使信息损失

降维

样本数量不变，属性减少

降维转换
特征选择

删除无关或相关属性，同时保持其他属性的相对独立属性不变

实例选择和采样

减少数据的样本量

posted @ 2022-10-27 09:21 chanxe 阅读(61) 评论(0) 收藏举报

刷新页面返回顶部