导航

公告

数据分析-pandas

数据分析库pandas之Series，Dataframe: replace函数及map函数，

Dataframe库使用replace函数（且不支持method和limit参数），且map不是Dataframe的方法，其实是Series的方法。

duplicated ：得到重复的行索引（布尔值）、keep参数（是否保留）：‘first‘,'last',False、inplace:是否替换

drop_duplicated()：删除重复的行索引

drop()：删除具体的行索引

rename：index行索引、columns列索引,level参数

df.all()：得到行的布尔值。用于清洗不满足的数据

df.std()：求标准差。

数据分析最后一步：聚合操作

　　groupby返回根据某一列或多列进行分组；

　　groups返回查看分组后的属性。

　　在许多情况下，我们将数据分成几组，并在每个子集上应用一些功能。在应用中，我们可以执行以下操作：

Aggregation ：计算一些摘要统计

grouped = df.groupby('Year')
print(grouped['Points'].agg(np.mean))

Transformation ：执行一些特定组的操作

grouped = df.groupby('Team')
score = lambda x: (x - x.mean()) / x.std()*10
print(grouped.transform(score))

Filtration：根据某些条件下丢弃数据比如
```
df.groupby('Team').filter(lambda x: len(x) >= 3)
```

posted on 2019-10-18 00:17 小小疯子1 阅读(197) 评论(0) 收藏举报

刷新页面返回顶部