09_缺失值处理
1.缺失值处理一般使用Python数据分析中的pandas。
2.sklearn中的缺失值处理了解一下吧。
3.Imputer流程:
1.初始化Imputer,指定”缺失值”,指定填补策略,指定行或列。
2.注:缺失值也可以是别的指定要替换的值。
3.调用fit_transform
4.关于np.nan(np.NaN):
1、 numpy的数组中可以使用np.nan/np.NaN来代替缺失值,属于float类型。
2、如果是文件中的一些缺失值,可以替换成nan,通过np.array转化成float 型的数组即可。
案例:[[1, 2], [np.nan, 3], [7, 6]],其中np.nan为缺失值。
from sklearn.preprocessing import Imputer # 已经被反对使用
import numpy as np
# from sklearn.impute import SimpleImputer
def im():
"""
缺失值处理
"""
# NaN nan
# 已经被反对使用
# im = Imputer(missing_values='NaN', strategy='mean', axis=0)
im = Imputer(missing_values='NaN', strategy='mean')# axis=0 按照列进行填补
data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])
print(data)
if __name__ == '__main__':
im()
"""
结果:
[[1. 2.]
[4. 3.]
[7. 6.]]
注:这个结果就是根据第一列的1和7的平均值来进行填补
程序提示不推荐使用Imputer部分被我删掉了
"""

浙公网安备 33010602011771号