DataFrame groupby

 

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df1 = DataFrame(np.arange(9).reshape(3, 3), index = ['bj', 'sh', 'gz'], columns=['a', 'b', 'c'])
print(df1) 

# 修改 df1 的 index
print(df1.index) # 可以打印出print的值,同时也可以为其赋值
df1.index = Series(['beijing', 'shanghai', 'guangzhou'])
print(df1)

df2 = df1.rename(index=str.upper, columns=str.upper) # 这种方法 照样是产生一个新的 dataframe
print(df2)
#分别修改索引和列名
df3 = df2.rename(index={'BEIJING':'bj'}, columns = {'A':'aa'}) # 为某个 index 单独修改名称
print(df3) #
print(type(df3))
df4 = df3.drop(["bj"])
print(df4) #

print("-----------------------------")


df = pd.DataFrame({'key':['A','B','C','A','B'],
                 'data1':[1, 2, 3, 4, 5], },
                columns = ['key', 'data1'])
#aggregate()函数的参数可以支持字符串、函数或者函数列表
print(df)
print(type(df))
# df = df.groupby('key').aggregate(['min', np.median, max])
df = df.groupby('key').sum()
print(type(df))
print(df)

a b c
bj 0 1 2
sh 3 4 5
gz 6 7 8
Index(['bj', 'sh', 'gz'], dtype='object')
a b c
beijing 0 1 2
shanghai 3 4 5
guangzhou 6 7 8
A B C
BEIJING 0 1 2
SHANGHAI 3 4 5
GUANGZHOU 6 7 8
aa B C
bj 0 1 2
SHANGHAI 3 4 5
GUANGZHOU 6 7 8
<class 'pandas.core.frame.DataFrame'>
aa B C
SHANGHAI 3 4 5
GUANGZHOU 6 7 8
-----------------------------
key data1
0 A 1
1 B 2
2 C 3
3 A 4
4 B 5
<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>
data1
key
A 5
B 7
C 3

 

 

set_index():
函数原型:DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False) 
参数解释:
keys:列标签或列标签/数组列表,需要设置为索引的列
drop:默认为True,删除用作新索引的列
append:默认为False,是否将列附加到现有索引
inplace:默认为False,适当修改DataFrame(不要创建新对象)
verify_integrity:默认为false,检查新索引的副本。否则,请将检查推迟到必要时进行。将其设置为false将提高该方法的性能。

reset_index():
函数原型:DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill='')
参数解释:
level:int、str、tuple或list,默认无,仅从索引中删除给定级别。默认情况下移除所有级别。控制了具体要还原的那个等级的索引 
drop:drop为False则索引列会被还原为普通列,否则会丢失
inplace:默认为false,适当修改DataFrame(不要创建新对象)
col_level:int或str,默认值为0,如果列有多个级别,则确定将标签插入到哪个级别。默认情况下,它将插入到第一级。
col_fill:对象,默认‘’,如果列有多个级别,则确定其他级别的命名方式。如果没有,则重复索引名

  
df = pd.DataFrame({ 'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})
print (df)
rename_t = df.rename(columns={"A":"a", "B":"b"}) #改变索引名字
print(rename_t)
 
drop_t = df.set_index('A',drop=True, append=False, inplace=False, verify_integrity=False)
print (drop_t)
no_drop_t = df.set_index('A',drop=False, append=False, inplace=False, verify_integrity=False)
print (no_drop_t) 
   
reset_drop_t = drop_t.reset_index(drop=False) #索引列会被还原为普通列
print(reset_drop_t)
reset_no_drop_t = no_drop_t.reset_index(drop=True) #索引列会被还原为普通列
print(reset_no_drop_t)

A B C D
0 A0 B0 C0 D0
1 A1 B1 C1 D1
2 A2 B2 C2 D2
3 A3 B3 C3 D3
a b C D
0 A0 B0 C0 D0
1 A1 B1 C1 D1
2 A2 B2 C2 D2
3 A3 B3 C3 D3
B C D
A
A0 B0 C0 D0
A1 B1 C1 D1
A2 B2 C2 D2
A3 B3 C3 D3
A B C D
A
A0 A0 B0 C0 D0
A1 A1 B1 C1 D1
A2 A2 B2 C2 D2
A3 A3 B3 C3 D3
A B C D
0 A0 B0 C0 D0
1 A1 B1 C1 D1
2 A2 B2 C2 D2
3 A3 B3 C3 D3
A B C D
0 A0 B0 C0 D0
1 A1 B1 C1 D1
2 A2 B2 C2 D2
3 A3 B3 C3 D3

posted @ 2019-05-19 08:28  牧 天  阅读(369)  评论(0编辑  收藏  举报