09_缺失值处理

1.缺失值处理一般使用Python数据分析中的pandas。

2.sklearn中的缺失值处理了解一下吧。

3.Imputer流程：

1.初始化Imputer,指定”缺失值”，指定填补策略，指定行或列。

2.注：缺失值也可以是别的指定要替换的值。

3.调用fit_transform

4.关于np.nan(np.NaN)：

　1、 numpy的数组中可以使用np.nan/np.NaN来代替缺失值，属于float类型。

　2、如果是文件中的一些缺失值，可以替换成nan，通过np.array转化成float 型的数组即可。

案例：[[1, 2], [np.nan, 3], [7, 6]]，其中np.nan为缺失值。

from sklearn.preprocessing import Imputer # 已经被反对使用
import numpy as np

# from sklearn.impute import SimpleImputer


def im():
    """
    缺失值处理

    """
    # NaN nan
    # 已经被反对使用
    # im = Imputer(missing_values='NaN', strategy='mean', axis=0)
    im = Imputer(missing_values='NaN', strategy='mean')# axis=0 按照列进行填补
    data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])
    print(data)

if __name__ == '__main__':
    im()


"""
结果：
[[1. 2.]
 [4. 3.]
 [7. 6.]]

注：这个结果就是根据第一列的1和7的平均值来进行填补

      程序提示不推荐使用Imputer部分被我删掉了

"""

posted @ 2019-10-22 16:33 会飞的发如雪阅读(234) 评论(0) 收藏举报

刷新页面返回顶部

会飞的发如雪

09_缺失值处理

公告