Pandas常用属性和方法

Pandas常用属性和方法

一些索引对象的方法和属性

  • append :将额外的索引对象粘贴到原索引后,产生一个新的索引

  • difference :计算两个索引的差集

  • intersection :计算两个索引的交集

  • union :计算两个索引的并集

  • isin :计算表示每一个值是否在传值容器中的布尔数组

  • delete :将位置i的元素删除,并产生新的索引

  • drop :根据传参删除指定索引值,并产生新的索引

  • insert :在位置i插入元素,并产生新的索引

  • is_monotonic :如果索引序列递增则返回True

  • is_unique :如果索引序列唯一则返回True

  • unique :计算索引的唯一值序列

reindex方法的参数

  • index :新建作为索引的序列

  • method :插值方式;'ffill'为前向填充,而‘bfill’是后向填充

  • fill_value :通过重新索引引入缺失数据时使用的替代值

  • limit :当前向或后向填充时,所需填充的最大尺寸间隙

  • tolerance :当前向或后向填充时,所需填充的不精确匹配下的最大尺寸间隙(以绝对数字距离)

  • level :匹配MultiIndex级别的简单索引;否则选择子集

  • copy :如果为True,即使新索引等于旧索引,也总是复制底层数据;如果时False,则在索引相同时不要复制数据

DataFrame索引选项

  • df[val] :从DataFrame中选择单列或列序列;特殊情况的便利:布尔数组(过滤行),切片(切片行)或布尔值DataFrame

  • df.loc[val] :根据标签选择DataFrame的单行或多行

  • df.loc[:,val] :根据标签选择单列或多列

  • df.loc[val1,val2] :同时选择行或列中的一部分

  • df.iloc[where] :根据整数位置选择单行或多行

  • df.iloc[:,where] :根据整数位置选择单列或多列

  • df.iloc[where_i,where_j] :根据整数位置选择行或列

  • df.at[label_i,label_j] :根据行、列标签选择单个标量值

  • df.iat[i,j] :根据行、列整数位置选择单个标量值

  • redndex方法 :通过标签选择行或列

  • get_value,set_value方法 :根据行或列的标签设置单个值

排名中的平级关系打破方法

  • 'average' :默认:在每个组中分配平均排名

  • 'min' :对整个组使用最小排名

  • 'max' :对整个组使用最大排名

  • 'first' :按照值在数据中出现的次序分配排名

  • 'dense' :类似于method='min',但组间排名总是增加1,而不是一个组中相等的元素的数量

描述性统计和汇总统计

  • count :非NA值的个数

  • describe :计算Series或DataFrame各列的汇总统计集合

  • min,max :计算最小值、最大值

  • argmin,argmax :分别计算最小值、最大值所在的索引位置(整数)

  • idxmin,idxmax :分别计算最小值或最大值所在的索引标签

  • quantile :计算样本的从0到1间的分位数

  • sum :加和

  • mean :均值

  • median :中位数

  • mad :平均值的平均绝对偏差

  • prod :所有值的积

  • var :值的样本方差

  • std :值的样本标准差

  • skew :样本偏度(第三时刻)值

  • kurt :样本峰度(第四时刻)的值

  • cumsum :累计值

  • cummin,cummax :累计的最小值或最大值

  • cumprod :值的累计积

  • diff :计算第一个算术差值(对时间序列有用)

  • pct_change :计算百分比

posted @ 2022-02-15 01:27  霜鱼CC  阅读(40)  评论(0)    收藏  举报