借助 scikit-learn 以 均值插补法 完成缺失数据的填充
功能强大的 scikit-learn 库中有 Imputer 类可以帮助数据工作者方便地完成缺失数据填充的工作!
1、创建示例数据
import pandas as pd
from io import StringIO
data = """I,II,III,IV
10,11,12,13
15,16,,18
0.0,1.0,2.0,
23,,27,72"""
df = pd.read_csv(StringIO(data))
df
输出如下:

检查各行缺失情况:

2、用每一列的均值填充缺失数据
先看看各列均值

填充缺失数据
from sklearn.preprocessing import Imputer imr = Imputer(missing_values='NaN', strategy='mean', axis=0) imr = imr.fit(df) imputed_data = imr.transform(df.values) imputed_data
输出如下:

如图所示,缺失数据以完成填补。
非学无以广才,非志无以成学。

浙公网安备 33010602011771号