DataFrame groupby
import numpy as np import pandas as pd from pandas import Series, DataFrame df1 = DataFrame(np.arange(9).reshape(3, 3), index = ['bj', 'sh', 'gz'], columns=['a', 'b', 'c']) print(df1) # 修改 df1 的 index print(df1.index) # 可以打印出print的值,同时也可以为其赋值 df1.index = Series(['beijing', 'shanghai', 'guangzhou']) print(df1) df2 = df1.rename(index=str.upper, columns=str.upper) # 这种方法 照样是产生一个新的 dataframe print(df2) #分别修改索引和列名 df3 = df2.rename(index={'BEIJING':'bj'}, columns = {'A':'aa'}) # 为某个 index 单独修改名称 print(df3) # print(type(df3)) df4 = df3.drop(["bj"]) print(df4) # print("-----------------------------") df = pd.DataFrame({'key':['A','B','C','A','B'], 'data1':[1, 2, 3, 4, 5], }, columns = ['key', 'data1']) #aggregate()函数的参数可以支持字符串、函数或者函数列表 print(df) print(type(df)) # df = df.groupby('key').aggregate(['min', np.median, max]) df = df.groupby('key').sum() print(type(df)) print(df)
a b c
bj 0 1 2
sh 3 4 5
gz 6 7 8
Index(['bj', 'sh', 'gz'], dtype='object')
a b c
beijing 0 1 2
shanghai 3 4 5
guangzhou 6 7 8
A B C
BEIJING 0 1 2
SHANGHAI 3 4 5
GUANGZHOU 6 7 8
aa B C
bj 0 1 2
SHANGHAI 3 4 5
GUANGZHOU 6 7 8
<class 'pandas.core.frame.DataFrame'>
aa B C
SHANGHAI 3 4 5
GUANGZHOU 6 7 8
-----------------------------
key data1
0 A 1
1 B 2
2 C 3
3 A 4
4 B 5
<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>
data1
key
A 5
B 7
C 3
set_index():
函数原型:DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)
参数解释:
keys:列标签或列标签/数组列表,需要设置为索引的列
drop:默认为True,删除用作新索引的列
append:默认为False,是否将列附加到现有索引
inplace:默认为False,适当修改DataFrame(不要创建新对象)
verify_integrity:默认为false,检查新索引的副本。否则,请将检查推迟到必要时进行。将其设置为false将提高该方法的性能。
reset_index():
函数原型:DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill='')
参数解释:
level:int、str、tuple或list,默认无,仅从索引中删除给定级别。默认情况下移除所有级别。控制了具体要还原的那个等级的索引
drop:drop为False则索引列会被还原为普通列,否则会丢失
inplace:默认为false,适当修改DataFrame(不要创建新对象)
col_level:int或str,默认值为0,如果列有多个级别,则确定将标签插入到哪个级别。默认情况下,它将插入到第一级。
col_fill:对象,默认‘’,如果列有多个级别,则确定其他级别的命名方式。如果没有,则重复索引名
df = pd.DataFrame({ 'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}) print (df) rename_t = df.rename(columns={"A":"a", "B":"b"}) #改变索引名字 print(rename_t) drop_t = df.set_index('A',drop=True, append=False, inplace=False, verify_integrity=False) print (drop_t) no_drop_t = df.set_index('A',drop=False, append=False, inplace=False, verify_integrity=False) print (no_drop_t) reset_drop_t = drop_t.reset_index(drop=False) #索引列会被还原为普通列 print(reset_drop_t) reset_no_drop_t = no_drop_t.reset_index(drop=True) #索引列会被还原为普通列 print(reset_no_drop_t)
A B C D
0 A0 B0 C0 D0
1 A1 B1 C1 D1
2 A2 B2 C2 D2
3 A3 B3 C3 D3
a b C D
0 A0 B0 C0 D0
1 A1 B1 C1 D1
2 A2 B2 C2 D2
3 A3 B3 C3 D3
B C D
A
A0 B0 C0 D0
A1 B1 C1 D1
A2 B2 C2 D2
A3 B3 C3 D3
A B C D
A
A0 A0 B0 C0 D0
A1 A1 B1 C1 D1
A2 A2 B2 C2 D2
A3 A3 B3 C3 D3
A B C D
0 A0 B0 C0 D0
1 A1 B1 C1 D1
2 A2 B2 C2 D2
3 A3 B3 C3 D3
A B C D
0 A0 B0 C0 D0
1 A1 B1 C1 D1
2 A2 B2 C2 D2
3 A3 B3 C3 D3