数据样本的常见类型

1)数值型和分类型

2)离散型和连续性变量

3)是否与时间相关

原始数据的转换

1)标准化(a)小数缩放(b)最小-最大值标准化(c)标准差标准化

数据平整

插值与比率(提高数据挖掘的性能)

对于丢失数据的处理

(1)手动生成缺失数据

(2)用特征平均值替换丢失值

时间相关数据

多数情况下t(n+1)-t(n),t(n+1)/t(n)(变化率)作为预测结果比t(n)要好

移动平均数MA

指数移动平均数EMA

异常点分析

检测异常点

一种是分布已知,超出阙值的则为异常点

另一种一维方法是格拉布斯法

 

posted on 2016-01-14 16:19  薄樱  阅读(225)  评论(0编辑  收藏  举报