Pandas处理缺失数据

利用pandas.DataFrame.dropna处理含有缺失值的数据

1.使用形式：
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

功能：处理含有缺失值的dataframe，将缺失值的行列过滤

2.参数解释：

参数：axis : 确定过滤行还是列，默认为0，可取值为：{0 or ‘index’, 1 or ‘columns’}

　　　how : 确定过滤的标准，可选值为{}‘any’, ‘all’}。any : 存在NA就过滤，all:某一行或者某一列全为NA就过滤

　　　thresh : 确定过滤的敏感程度int,取值为num，表示保留至少有num个非NA值得行、列

　　　inplace : boolean, 默认值 False。

　　　　inplace=False，默认该删除操作不改变原数据，返回一个执行删除操作后的新dataframe；

　　　　inplace=True，则会直接在原数据上进行删除操作

3.测试

测试一个过滤过缺失值的dataframe时候还有缺失值：

print(data[data.isnull().any(axis=1)].size)
#输出data中含有NA值得列的数目，输出为0

posted @ 2018-03-08 16:10 cn_XuYang 阅读(1085) 评论(0) 收藏举报

刷新页面返回顶部

cn_XuYang