Pandas学习笔记 02 pandas基础

第二章 pandas基础

1 文件的读取和写入
- 1.1 文件读取
- 1.2 数据写入
2 基本数据结构
3 常用基本函数
4 窗口对象
- 4.1 滑窗对象
- 4.2 扩张窗口

1 文件的读取和写入

1.1 文件读取

read_csv read_table read_excel

公共参数

header=None表示第一行不作为列名

index_col表示把某一列或几列作为索引

usecols表示读取的列，默认读取所有的列

parse_dates表示需要转化为时间的列

nrows表示读取的数据行数。

对于read_table读取txt，使用sep（正则）自定义分隔符，同时指定engine为python

1.2 数据写入

to_csv to_excel

保存时使用index=False去除索引

2 基本数据结构

Series一般由序列值data、索引index、存储类型dtype、序列名称name组成。

DataFrame在Series的基础上增加列索引columns，.T可进行转置。

获取属性：values index dtype name shape columns

3 常用基本函数

3.1汇总函数

head, tail分别表示返回表或者序列的前n行和后n行，其中n默认为5。

info, describe分别返回表的信息概况和表中数值列对应的主要统计量

3.2 特征统计函数（聚合）

sum, mean, median, var, std, max, min：和、均值、中位数、无偏方差、样本标准差、最大值、最小值。

quantile, count, idxmax/idxmin：分位数、非缺失值个数、最大/小值对应的索引

3.3 唯一值函数

unique：获取唯一值列表

nunique：获取唯一值个数

value_counts：获取唯一值和出现频数

drop_duplicates：删除多列组合的重复值。

关键参数keep默认值为first，保留组合第一个出现的所在行；last表示保留最后一次出现的所在行，False表示把所有重复组合所在的行剔除（只保留出现过一次的组合）。

duplicated返回是否为唯一值的布尔列表，keep参数同上。

3.4 替换函数

映射替换：replace

直接传入字典或双列表
方向替换，method=ffill/bfill用前方值或后方值替换
正则替换，regex=True

逻辑替换：where和mask

where在传入条件为False时进行替换，mask在传入条件为True时进行替换

数值替换：round, abs, clip分别表示给定精度四舍五入、取绝对值和截断

3.5 排序函数

sort_values：值排序，默认参数ascending=True为升序

sort_index：索引排序，需要level参数指定索引层名称或层号。

3.6 apply方法

向apply传入自定义函数，对序列进行自定义处理

4 窗口对象

4.1 滑窗对象

.rolling获得滑窗对象，参数window定义窗口大小，再使用聚合函数或apply自定义处理。

shift, diff, pct_change是一组类滑窗函数，分别表示前移、做差、增长率，公共参数为periods=n，可以为负值，默认为1，表示与前一位比较。功能可以用窗口大小为n+1的rolling方法等价代替。

4.2 扩张窗口

.expanding表示扩张窗口，使用聚合函数会依次作用到逐步扩张的窗口上，类似cummax, cumsum, cumprod。

参考：

joyful pandas教程 https://github.com/datawhalechina/joyful-pandas

posted @ 2022-03-05 16:23 ikventure 阅读(146) 评论(0) 收藏举报

刷新页面返回顶部

ikventure