数据预处理的一般流程

1.去除唯一属性

类似于身份证信息,编号这类的属性,对数据分析无实际意义作用,在数据预处理的过程中我们将其删除。

 

2.缺失值填补

(1)均值填补:使用属性的平均值进行填补。

(2)同类均值填补:将样本进行分类,然后将缺失值所在类的属性均值拿来进行填补。

(3)众数填补:属性值出现最多的拿来填补。

(4)建模预测:将缺失的属性拿来作为预测的目标,将数据集按照是否含有特定属性的缺失值分为两类,利用模型预测值进行填补。

(5)高维映射

(6)多重差补

 

3.特征二值化

将数值型的属性按照阈值转换为布尔值的属性。用户根据具体问题设定一个阈值作为分割点,将属性值划分为0和1两种。

 

4.特征编码

posted @ 2021-07-22 16:59  键盘上的优雅  阅读(792)  评论(0)    收藏  举报