借助 scikit-learn 以 均值插补法 完成缺失数据的填充

  功能强大的 scikit-learn 库中有 Imputer 类可以帮助数据工作者方便地完成缺失数据填充的工作!

1、创建示例数据

import pandas as pd
from io import StringIO

data = """I,II,III,IV
              10,11,12,13
              15,16,,18
              0.0,1.0,2.0,
              23,,27,72"""
df = pd.read_csv(StringIO(data))
df

输出如下:

 

 检查各行缺失情况:

 

 2、用每一列的均值填充缺失数据

先看看各列均值

 

 填充缺失数据

from sklearn.preprocessing import Imputer

imr =  Imputer(missing_values='NaN', strategy='mean', axis=0)
imr = imr.fit(df)
imputed_data = imr.transform(df.values)
imputed_data

输出如下:

 

如图所示,缺失数据以完成填补。

 

posted @ 2019-11-15 13:47  赏尔  阅读(971)  评论(0)    收藏  举报