数据缺失值、异常值的识别和填补

-------------原文  https://wenku.baidu.com/view/aaa16788a48da0116c175f0e7cd184254b351bb0.html  ------

常见的插补方法简述

1    剔除法

如果缺失值所占比例小的话,这个方法十分有效。但是会丢弃了大量隐藏在这些对象中的信息

2 均值插补法

分为数值型和非数值型来分别进行处理。如果是数值型,用该对象的平均值来填充该缺失的变量值。如果是非数值型,用统计学中的众数来填充。

3  热卡填充法

在数据库中找打一个与它最相似的对象,然后用这个对象的值来进行填充。

4 回归替换法

需要首先选择若干个预测缺失值的自变量,然后建议回归方程估计缺失值。即用缺失条件的期望值来进行替换。

5 多重替换法

posted @ 2020-03-31 20:54  大大的海棠湾  阅读(1614)  评论(0)    收藏  举报