数据预处理

定量属性(数值的):区间,比率等

定性属性(标识的):标识,序号等

 

聚集:删除数据的属性值(如一个商店的事务代替所有商店的事务)或者合并属性的值(如取值从1-365日合并为取值为1-12月)。

        关键是找出聚集事务,一般定性属性采用忽略或者汇总方法,定量属性采用求和或求平均方法

 

抽样:随机抽样(返回抽样,无返回抽样),分层抽样(各层均等抽样,各层权重抽样)

 

维归约:多属性变成一个新属性?

 

创建特征:看上去也是维归约,由原来的属性创建新的属性。

         提取特征:如要做图片分类,但是原始数据都是像素数据集合,无法分类。如果利用图像识别技术,对像素数据进行处理,提取出一些高层次的特征,如人脸,建筑等等。

         映射到新的空间:什么傅里叶变换,,,,????

         特征构造: 如要做材料分类,金属,木材,混凝土....等等。但原来属性只有什么体积、质量,则可以创建出密度属性。

 

二元化和离散化:

 

变量变换: 运用些函数变换属性,如绝对值,平方,对数,标准差...

 

posted on 2015-03-25 17:11  不忘初衷,方能致远  阅读(172)  评论(0)    收藏  举报

导航