项目总结 | 九种缺失值处理方法总有一种适合你

为什么要处理缺失值

这一段完全是废话了。含有缺失数据的样本，你要么删了，要了就填充上什么值。删了就会损失一部分的样本信息，填充要是填充的不合适，会给样本增加噪音。

所以这就是一个选择的问题：

这里先说一下，我总结了自己在竞赛中的操作，以及一些大佬的处理方法，建议处理缺失值的方法是：

但是训练模型的时候，可能不处理并不能进行。所以一般不会选择不处理。

这个是认为数据的空值也是具有一定的信息的，它之所以为空，是因为它不同于其他的任何数据。所以将空值作为一种特殊的属性值来处理，它不同于其他的任何属性值。如所有的空值都用“unknown”填充。

比方说，一个样本的特征a缺失了，那么a就填充上所有样本的特征a的平均值。

此外有一种叫做条件平均值填充的方法，是只考虑和缺失样本具有相同特征的样本的平均值。比方说某一个样本的特征a缺失了，用和这个样本的特征b相同的所有样本的特征a的平均值来填充这个缺失值。（因为这些样本和缺失数据的样本具有相同的特征，所有认为他们会更为相似）。

对于一个包含空值的对象，热卡填充法在完整数据中找到一个与它最相似的对象，然后用这个相似对象的值来进行填充。

【优缺点】

先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均来估计该样本的缺失数据。

这个方法与热卡填充有些相似，如果最近邻法仅仅考虑最近的一个样本，那么就会退化成热卡填充。不过最近邻法和热卡填充面临同样的问题，如何衡量相似度。

用空缺属性值的所有可能的属性取值来填充，能够得到较好的补齐效果。

但是，当数据量很大或者遗漏的属性值较多时，其计算的代价很大，可能的测试方案很多。

基于完整的数据集，建立预测模型。对于包含空值的对象，将已知属性值代入方程来估计未知属性值，以此估计值来进行填充。

其实就是假设特征之间也存在一定的关系，可以通过预测来得到缺失值。但是我个人不建议使用这个方法，因为有些麻烦，而且不确定这样得到的填充值的效果。又可能出现模型过拟合等新问题。

这个我看大数据竞赛中，并没有大神做这个填充缺失项的。一般对于小数据会使用这个方法，因为多重插补会反复训练模型，然后评价模型的效果。因此需要大量的时间。

posted @ 2020-07-26 07:12 忽逢桃林阅读(3897) 评论(0) 收藏举报

刷新页面返回顶部