Python读取Excel、CSV文件
*读取csv
import pandas as pd
f = open('D:/SAB/Desktop/数据分析.csv')
df=pd.read_csv(f)
df
或者可以这样读取
import pandas as pd
f = open('D:\\SAB\\Desktop\\数据分析.csv')
df=pd.read_csv(f)
df
* 打印行和列
df.iloc[[0,1,2,3],[0,1]] #打印1—4行,1-2列
*打印出V1>1的数据
df[df.V1>1] #打印出V1>1的数据
*打印出V1>1 且 V0>1的数据
df[(df.V1>1) & (df.V0>1)] #打印出V1>1 且 V0>1的数据
*假如加入了筛选条件后,我们只关心V3和V5
df[['V3','V5']][(df.V1>1) & (df.V0>1)]#假如加入了筛选条件后,我们只关心V3和V5
*描述性统计
df.describe() #描述性统计
*转置
df.T #转置
*按V0列升序排序
df.sort_values(by='V0',ascending=True) #按V0列升序排序
*用数字代替缺失值
df.fillna(1111111111111) #用数字代替缺失值
df.fillna(method = 'pad') #用前一个数据代替缺失值
df.fillna(method = 'bfill') #用后一个数据代替
df.dropna(axis = 0) #删除缺失行
df.dropna(axis = 1) #删除缺失列
*读取excel
import pandas as pd
f = 'D:/SAB/Desktop/数据分析.xlsx'
df= pd.read_excel(f)
df
文件如下:

print([column for column in df]) #获取所有的列名
pd.pivot_table(df,index=["匹配","开闭口","型号"]) #对某些列进行透视
df1 = pd.pivot_table(df,index=["关联(问题类型)","关联(问题明细)"],values=["value"],aggfunc=[len]) #使用聚合函数计数
df1
使用groupby ,相当于透视
grouped = df['订单号'].groupby(df['关联(问题类型)'])
grouped.count().nlargest(10)

浙公网安备 33010602011771号