pandas常用方法

删:

df2.dropna()
df2.dropna(subset=['消费','姓名'])

数据填充:

df.fillna(0)填充0
df.fillna({'客单价':666,'支付金额':df['支付金额'].min()})

df.drop_duplicates()//去重 删除所有行
df.drop_duplicates(subset = '流量级别')//从下往上删
df.drop_duplicates(subset = '流量级别',keep = 'last')//从上往下删

排序

sort_df = df.sort_values('支付金额',ascending = False) 降序

转置

sort_df.T

分组

df.groupby('name')['age','aaa'].sum()
df.groupby('name',as_index=False)['age','aaa'].sum()//不把分组选项变成索引列
df.groupby('流量级别')['访客数','支付金额'].sum().reset_index()

df.groupby('流量级别')[['支付转化率','客单价']].agg({'mean','sum'})
df.groupby('流量级别').agg({'访客数':'max','支付金额':'median'})

数据切分

df['分类打标'] = pd.cut(x = df['访客数'],bins = [0,100,1000,10000,100000],
right = False,labels = ['忽略级','百级','千级','万级'])

posted @ 2024-12-26 20:45  三石PY  阅读(13)  评论(0)    收藏  举报