数据预处理
数据预处理:数据清洗,数据集成,数据变换,数据规约
数据清洗
1 缺失值处理:删除记录,数据插补,不处理
数据插补:拉格朗日插值法(P63 4-1_lagrange_newton_interp.py),牛顿插值法,回归方法,临近插补法,均值插补法等
2 异常值处理:删除记录,视为缺失值,平均值修正,不处理
数据集成(将多个数据源合并存放)
1 实体识别:同名异义 异名同义 单位不统一
2 冗余属性识别:有些冗余属性可用相关分析检测
数据变换
1 简单函数变换(常用来将不具有正态分布的数据变换成具有正太分布)
2 规范化:
最小最大规范法
零-均值规范化(当前使用最多)
小数定标规范化
3 连续属性离散化: 等宽法,等频法,聚类(P68 4-3_data_discretization.py)
4 属性构造(P71 4-4_data_discretization.py)
5 小波变换(P73 4-5_wave_analyze.py)
数据规约
1 属性规约:合并属性,逐步向前,逐步向厚,决策树,主成分分析(将相关性很高的变量转化成相互独立的变量,例P78 4-6_principal_component_analyze.py)
2 数值规约 :直方图,聚类,抽样,参数回归
posted on 2019-02-13 14:46 wangzhonghan 阅读(249) 评论(0) 收藏 举报
浙公网安备 33010602011771号