pandas.groupby

groupby,分组统计,是数据分析时常用的一种手段

所谓的groupby就是一个拆分再合并的过程,就如下图所示:

以列的名称作为分组依据

比如对于如下的训练集

对其他特征数量按照uid进行统计

b.groupby('uid').count()

结果如下:

对其他特征按照uid进行求和

b.groupby("uid").sum()

结果如下:

也可以单独选出某个列让他们按照升降序顺序排列

pd.DataFrame(b.groupby("uid").sum()['adv_id'].sort_values(ascending=False))

结果如下:

groupby分组产生的是一个二元元组,由分组名+数据块组成。实际上对于这个分组我们本身也是可以对他进行迭代遍历的:

for name,group in b.groupby('uid'):
    print(name)
    print(group)
    print("*************")

结果如下:

posted @ 2021-09-15 23:19  晓尘  阅读(123)  评论(0)    收藏  举报