数据预处理

数据预处理:数据清洗,数据集成,数据变换,数据规约

 

数据清洗

1 缺失值处理:删除记录,数据插补,不处理

   数据插补:拉格朗日插值法(P63 4-1_lagrange_newton_interp.py),牛顿插值法,回归方法,临近插补法,均值插补法等

2 异常值处理:删除记录,视为缺失值,平均值修正,不处理

 

数据集成(将多个数据源合并存放)

1 实体识别:同名异义 异名同义 单位不统一

2 冗余属性识别:有些冗余属性可用相关分析检测

 

数据变换

1 简单函数变换(常用来将不具有正态分布的数据变换成具有正太分布)

2 规范化:

   最小最大规范法

   零-均值规范化(当前使用最多)

   小数定标规范化

3 连续属性离散化: 等宽法,等频法,聚类(P68 4-3_data_discretization.py)

4 属性构造(P71 4-4_data_discretization.py)

5 小波变换(P73 4-5_wave_analyze.py)

 

数据规约

1 属性规约:合并属性,逐步向前,逐步向厚,决策树,主成分分析(将相关性很高的变量转化成相互独立的变量,例P78 4-6_principal_component_analyze.py)

2 数值规约 :直方图,聚类,抽样,参数回归

 

posted on 2019-02-13 14:46  wangzhonghan  阅读(249)  评论(0)    收藏  举报

导航