数据预处理

原因:数据质量,完整性、一致性、准确性
 
 
数据清理: 补全缺失数据、光滑噪声数据、识别并提出离散点
  • 缺失值
  • 噪声数据
    • 分箱
    • 回归拟合
 
数据集成: 合并多个数据存储的数据
  • 实体识别问题(不同名称,数值可能是相同的内容)
  • 冗余与相关性分析
    • 卡方检验
    • 相关系数
    • 协方差
 
数据归约:得到简化的数据集
  • 维归约
    • 小波变换(DWT)
    • 主成分分析(PCA)
  • 数量归约
  • 数据压缩
 
数据变换与策略概述:
  • 光滑
  • 属性构造
  • 聚集
  • 规范化
  • 离散化
 
数据规范化:
  • 最大-最小规范化 (映射到新的连续区间)
  • z分数规范化
  • 小数定标
posted on 2017-04-25 20:56  BitInterfc  阅读(93)  评论(0)    收藏  举报