Pandas学习笔记 02 pandas基础

第二章 pandas基础

1 文件的读取和写入

1.1 文件读取

read_csv read_table read_excel

公共参数

header=None表示第一行不作为列名

index_col表示把某一列或几列作为索引

usecols表示读取的列,默认读取所有的列

parse_dates表示需要转化为时间的列

nrows表示读取的数据行数。

对于read_table读取txt,使用sep(正则)自定义分隔符,同时指定enginepython

1.2 数据写入

to_csv to_excel

保存时使用index=False去除索引

2 基本数据结构

Series一般由序列值data、索引index、存储类型dtype、序列名称name组成。

DataFrameSeries的基础上增加列索引columns.T可进行转置。

获取属性:values index dtype name shape columns

3 常用基本函数

3.1汇总函数

head, tail分别表示返回表或者序列的前n行和后n行,其中n默认为5。

info, describe分别返回表的信息概况和表中数值列对应的主要统计量

3.2 特征统计函数(聚合)

sum, mean, median, var, std, max, min:和、均值、中位数、无偏方差、样本标准差、最大值、最小值。

quantile, count, idxmax/idxmin:分位数、非缺失值个数、最大/小值对应的索引

3.3 唯一值函数

unique:获取唯一值列表

nunique:获取唯一值个数

value_counts:获取唯一值和出现频数

drop_duplicates:删除多列组合的重复值。

关键参数keep默认值为first,保留组合第一个出现的所在行;last表示保留最后一次出现的所在行,False表示把所有重复组合所在的行剔除(只保留出现过一次的组合)。

duplicated返回是否为唯一值的布尔列表,keep参数同上。

3.4 替换函数

映射替换:replace

  1. 直接传入字典或双列表

  2. 方向替换,method=ffill/bfill用前方值或后方值替换

  3. 正则替换,regex=True

逻辑替换:wheremask

where在传入条件为False时进行替换,mask在传入条件为True时进行替换

数值替换:round, abs, clip分别表示给定精度四舍五入、取绝对值和截断

3.5 排序函数

sort_values: 值排序,默认参数ascending=True为升序

sort_index: 索引排序,需要level参数指定索引层名称或层号。

3.6 apply方法

apply传入自定义函数,对序列进行自定义处理

4 窗口对象

4.1 滑窗对象

.rolling获得滑窗对象,参数window定义窗口大小,再使用聚合函数或apply自定义处理。

shift, diff, pct_change是一组类滑窗函数,分别表示前移、做差、增长率,公共参数为periods=n,可以为负值,默认为1,表示与前一位比较。功能可以用窗口大小为n+1rolling方法等价代替。

4.2 扩张窗口

.expanding表示扩张窗口,使用聚合函数会依次作用到逐步扩张的窗口上,类似cummax, cumsum, cumprod

参考:

joyful pandas教程 https://github.com/datawhalechina/joyful-pandas

posted @ 2022-03-05 16:23  ikventure  阅读(69)  评论(0编辑  收藏  举报