数据预处理
原因:数据质量,完整性、一致性、准确性
数据清理: 补全缺失数据、光滑噪声数据、识别并提出离散点
- 缺失值
- 噪声数据
-
- 分箱
- 回归拟合
数据集成: 合并多个数据存储的数据
- 实体识别问题(不同名称,数值可能是相同的内容)
- 冗余与相关性分析
-
- 卡方检验
- 相关系数
- 协方差
数据归约:得到简化的数据集
- 维归约
-
- 小波变换(DWT)
- 主成分分析(PCA)
- 数量归约
- 数据压缩
数据变换与策略概述:
- 光滑
- 属性构造
- 聚集
- 规范化
- 离散化
数据规范化:
- 最大-最小规范化 (映射到新的连续区间)
- z分数规范化
- 小数定标
浙公网安备 33010602011771号