小小疯子

导航

 

数据分析库pandas之Series,Dataframe: replace函数及map函数,

Dataframe库使用replace函数(且不支持method和limit参数),且map不是Dataframe的方法,其实是Series的方法。

duplicated :得到重复的行索引(布尔值)、keep参数(是否保留):‘first‘,'last',False、inplace:是否替换

drop_duplicated():删除重复的行索引

drop():删除具体的行索引

rename:index行索引、columns列索引,level参数

df.all():得到行的布尔值。用于清洗不满足的数据

df.std():求标准差。

数据分析最后一步:聚合操作

  groupby返回根据某一列或多列进行分组;

  groups返回查看分组后的属性。

  在许多情况下,我们将数据分成几组,并在每个子集上应用一些功能。在应用中,我们可以执行以下操作:

  • Aggregation :计算一些摘要统计
    grouped = df.groupby('Year')
    print(grouped['Points'].agg(np.mean))
  • Transformation :执行一些特定组的操作
    grouped = df.groupby('Team')
    score = lambda x: (x - x.mean()) / x.std()*10
    print(grouped.transform(score))
  • Filtration:根据某些条件下丢弃数据 比如
    df.groupby('Team').filter(lambda x: len(x) >= 3)
posted on 2019-10-18 00:17  小小疯子1  阅读(190)  评论(0编辑  收藏  举报