Pandas整理

一、安装 - Python idle调用anaconda包
sys.path.append(r'E:\anaconda\Lib\site-packages')

类型 Series和DataFrame

s2=pd.Series([1,2,3,4],['a','b','c','d'])
s2.astype('str')

属性

df.values 返回series对象所有元素 df.shape 返回数据形状 df.dtypes 返回数据类型

df.columns 列标签　　 tolist() 转为列表　　df.ndim 维数　　df.size 对象个数 NaN 缺失值

二、语句

1.读取文件

df =pd.read_csv(".csv", encoding= , dtype={'':str},nrows,sep='')

read_excel(xlsx,encoding=,sheet_name='')
df.head() 前5条内容

2.操作函数

df.T 行列颠倒

df.sort_values([''],ascending=False) 排序

df.x.rank(ascending=False,method=first,min,max) x代表列

df.x.unique() 去重

df.x.value_counts() 计数

df.describe() 统计描述

df.x.cumsum() 累加

pd.cut(df.x.bins=5) 将数字进行5等分区间显示

3.切片

order.loc[[7,10], ['name']] 取7-10行name列

order.loc[order['id']==458, ['id','name']]

order.iloc[2:7,[2,3]] 按位置取2-6行 3-4列

order.[[,]] [] . isin('') 是否包含某元素

.str.contains(‘’) 包含字符串 .between(?,?,inclusive=True)]

4.增删改查

drop['', axis=()] axis 0为行，1为列

del order[''] 删除列

insert(序列，'名称'，值) 插入

order.describe() 改赋值

order.rename(columns={'':''},index={ :''},inplace=True) 修改列、行标题 inplace后才能生效

pd.merge(left, right, on='key') 合并列根据key

pd.concat(pieces) 直接添加合并 pd.concat(pieces)，axis=1）左右合并

join 根据索引合并

groupby(by=[]).mean().avg(Series) 根据条件进行分组

position.loc[position.city== ] = np.NaN 赋予空值

df1.dropna(how='any') 删除所有带有缺省项的行

df1.fillna(value=5) 填充缺省项

pd.isnull(df1) 获得缺省项的布尔掩码

drop_duplicated() 去重

df.apply(np.cumsum) 使用函数

pd.pivot_table(df, values='D', index=['A','B'], columns=['C']) 数据透视

posted on 2020-09-02 16:35 喻解阅读(172) 评论(0) 收藏举报