pandas处理丢失数据¶

有两种丢失数据:

  • None
  • np.nan(NaN)

1. None

None是Python自带的,其类型为python object。因此,None不能参与到任何计算中。

object类型的运算要比int类型的运算慢得多
计算不同数据类型求和时间
%timeit np.arange(1e5,dtype=xxx).sum()

2. np.nan(NaN)

np.nan是浮点类型,能参与到计算中。但计算的结果总是NaN。

但可以使用np.nan*()函数来计算nan,此时视nan为0。

3. pandas中的None与NaN

1) pandas中None与np.nan都视作np.nan

 

2) pandas中None与np.nan的操作

  (1)判断函数

  • isnull()
  • notnull()
  • dropna(): 过滤丢失数据  可以选择过滤的是行还是列(默认为行)
  • fillna(): 填充丢失数据  填充函数 Series/DataFrame

对于DataFrame来说,还要选择填充的轴axis。记住,对于DataFrame来说:

  • axis=0:index/行
  • axis=1:columns/列

 

posted @ 2017-10-26 19:47  你好,小帝  阅读(215)  评论(0编辑  收藏  举报