Pandas的常用方法

Pandas是一个Python软件包，提供快速，灵活和富有表现力的数据结构，旨在使“关系”或“标记”数据的工作变得简单直观。它旨在成为在Python中进行实际的，真实世界的数据分析的基本高级构件。另外，它具有更广泛的目标，即成为任何语言中最强大，最灵活的开源数据分析/操作工具。它已经很好地走向了这个目标。

pandas非常适合许多不同类型的数据：

具有异构类型列的表格数据，如在SQL表格或Excel电子表格中

有序和无序（不一定是固定频率）的时间序列数据。

具有行列标签的任意矩阵数据（均匀类型或异类型）

任何其他形式的观测/统计数据集。数据实际上不需要标记为放置在熊猫数据结构中

pandas Series（1维）和DataFrame（2维）这两个主要的数据结构在金融，统计，社会科学和许多工程领域处理绝大多数的典型用例。对于R用户，DataFrame提供R所提供的一切， data.frame以及更多。pandas建立在NumPy之上，旨在与许多其他第三方库完美地集成在科学计算环境中。

这只是pandas所做的一些事情：

轻松处理浮点数据中的丢失数据（以NaN表示）以及非浮点数据

大小可变性：可以从DataFrame和更高维的对象插入和删除列

自动和显式的数据对齐：对象可以显式地与一组标签对齐，或者用户可以简单的忽略标签，让Series，DataFrame等自动对齐你的数据在计算

功能强大，灵活的按组功能来执行对数据集拆分申请，联合行动，对于聚合和转换数据

可以轻松地将其他Python和NumPy数据结构中的不同索引的数据转换为DataFrame对象

基于智能标签的切片，花式索引和大型数据集的子集

直观的合并和连接数据集

数据集的灵活的重塑和旋转

坐标轴的分层标记（可能每个标记有多个标签）

强大的IO工具，用于从平面文件（CSV和分隔），Excel文件，数据库加载数据，以及从超快HDF5格式保存/加载数据

时间序列 - 特定功能：日期范围生成和频率转换，移动窗口统计，移动窗口线性回归，日期转换和滞后等。

这些原则中的许多都是为了解决使用其他语言/科学研究环境经常遇到的缺陷。对于数据科学家来说，处理数据通常分为多个阶段：清理和清理数据，分析/建模数据，然后将分析结果组织成适合绘图或表格显示的形式。pandas是所有这些任务的理想工具。

一些其他的说明

pandas是快速的。许多低级算法位已经在Cython代码中进行了广泛的调整。但是，与其他任何概括一样，通常会牺牲性能。所以，如果您专注于您的应用程序的一个功能，您可能可以创建一个更快的专业工具。

pandas是statsmodels的依赖，使其成为Python中统计计算生态系统的重要组成部分。

pandas已被广泛用于金融应用的生产。

注意

本文档假定您对NumPy有一般的了解。如果你还没有使用NumPy，或者根本没有使用NumPy，那么先花一些时间来学习NumPy。

pandas官网： http://pandas.pydata.org/

Numpy官网： http://www.numpy.org/

Series

　　　　Series可以运用ndarray或字典的几乎所有索引操作和函数，融合了字典和ndarray的优点。

Series常用属性

属性	说明
values	获取数组
index	获取索引
name	values的name
index.name	索引的name

Series常用函数

函数	说明
Series([x,y,...])Series({'a':x,'b':y,...}, index=param1)	生成一个Series
Series.copy()	复制一个Series
Series.reindex([x,y,...], fill_value=NaN) Series.reindex([x,y,...], method=NaN) Series.reindex(columns=[x,y,...])	重返回一个适应新索引的新对象，将缺失值填充为fill_value 返回适应新索引的新对象，填充方式为method 对列进行重新索引
Series.drop(index)	丢弃指定项
Series.map(f)	应用元素级函数

排序函数	说明
Series.sort_index(ascending=True)	根据索引返回已排序的新对象
Series.order(ascending=True)	根据值返回已排序的对象，NaN值在末尾
Series.rank(method='average', ascending=True, axis=0)	为各组分配一个平均排名
df.argmax() df.argmin()	返回含有最大值的索引位置返回含有最小值的索引位置

　　　　reindex的method选项：

　　　　　　ffill, bfill　　　　　向前填充/向后填充

　　　　　　pad, backfill　　　向前搬运，向后搬运

　　　　rank的method选项

　　　　　　'average'　　　　在相等分组中，为各个值分配平均排名

　　　　　　'max','min'　　　使用整个分组中的最小排名

　　　　　　'first'　　　　　　按值在原始数据中出现的顺序排名

DataFrame

　　　　DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。

　　　　DataFrame可以通过类似字典的方式或者.columnname的方式将列获取为一个Series。行也可以通过位置或名称的方式进行获取。

　　　　为不存在的列赋值会创建新列。

　　　　>>> del frame['xxx']　　# 删除列

DataFrame常用属性

属性	说明
values	DataFrame的值
index	行索引
index.name	行索引的名字
columns	列索引
columns.name	列索引的名字
ix	返回行的DataFrame
ix[[x,y,...], [x,y,...]]	对行重新索引，然后对列重新索引
T	frame行列转置

Dataframe常用函数

函数	说明
DataFrame(dict, columns=dict.index, index=[dict.columnnum]) DataFrame(二维ndarray) DataFrame(由数组、列表或元组组成的字典) DataFrame(NumPy的结构化/记录数组) DataFrame(由Series组成的字典) DataFrame(由字典组成的字典) DataFrame(字典或Series的列表) DataFrame(由列表或元组组成的列表) DataFrame(DataFrame) DataFrame(NumPy的MaskedArray)	构建DataFrame 数据矩阵，还可以传入行标和列标每个序列会变成DataFrame的一列。所有序列的长度必须相同类似于“由数组组成的字典” 每个Series会成为一列。如果没有显式制定索引，则各Series的索引会被合并成结果的行索引各内层字典会成为一列。键会被合并成结果的行索引。各项将会成为DataFrame的一行。索引的并集会成为DataFrame的列标。类似于二维ndarray 沿用DataFrame 类似于二维ndarray，但掩码结果会变成NA/缺失值
df.reindex([x,y,...], fill_value=NaN, limit) df.reindex([x,y,...], method=NaN) df.reindex([x,y,...], columns=[x,y,...],copy=True)	返回一个适应新索引的新对象，将缺失值填充为fill_value，最大填充量为limit 返回适应新索引的新对象，填充方式为method 同时对行和列进行重新索引，默认复制新对象。
df.drop(index, axis=0)	丢弃指定轴上的指定项。

排序函数	说明
df.sort_index(axis=0, ascending=True) df.sort_index(by=[a,b,...])	根据索引排序

汇总统计函数	说明
df.count()	非NaN的数量
df.describe()	一次性产生多个汇总统计
df.min() df.min()	最小值最大值
df.idxmax(axis=0, skipna=True) df.idxmin(axis=0, skipna=True)	返回含有最大值的index的Series 返回含有最小值的index的Series
df.quantile(axis=0)	计算样本的分位数
df.sum(axis=0, skipna=True, level=NaN) df.mean(axis=0, skipna=True, level=NaN) df.median(axis=0, skipna=True, level=NaN) df.mad(axis=0, skipna=True, level=NaN) df.var(axis=0, skipna=True, level=NaN) df.std(axis=0, skipna=True, level=NaN) df.skew(axis=0, skipna=True, level=NaN) df.kurt(axis=0, skipna=True, level=NaN) df.cumsum(axis=0, skipna=True, level=NaN) df.cummin(axis=0, skipna=True, level=NaN) df.cummax(axis=0, skipna=True, level=NaN) df.cumprod(axis=0, skipna=True, level=NaN) df.diff(axis=0) df.pct_change(axis=0)	返回一个含有求和小计的Series 返回一个含有平均值的Series 返回一个含有算术中位数的Series 返回一个根据平均值计算平均绝对离差的Series 返回一个方差的Series 返回一个标准差的Series 返回样本值的偏度（三阶距）返回样本值的峰度（四阶距）返回样本的累计和返回样本的累计最大值返回样本的累计最小值返回样本的累计积返回样本的一阶差分返回样本的百分比数变化


计算函数	说明
df.add(df2, fill_value=NaN, axist=1) df.sub(df2, fill_value=NaN, axist=1) df.div(df2, fill_value=NaN, axist=1) df.mul(df2, fill_value=NaN, axist=1)	元素级相加，对齐时找不到元素默认用fill_value 元素级相减，对齐时找不到元素默认用fill_value 元素级相除，对齐时找不到元素默认用fill_value 元素级相乘，对齐时找不到元素默认用fill_value
df.apply(f, axis=0)	将f函数应用到由各行各列所形成的一维数组上
df.applymap(f)	将f函数应用到各个元素上
df.cumsum(axis=0, skipna=True)	累加，返回累加后的dataframe

Dataframe常用索引方式

索引方式	说明
df[val]	选取DataFrame的单个列或一组列
df.ix[val]	选取Dataframe的单个行或一组行
df.ix[:,val]	选取单个列或列子集
df.ix[val1,val2]	将一个或多个轴匹配到新索引
reindex方法	将一个或多个轴匹配到新索引
xs方法	根据标签选取单行或者单列，返回一个Series
icol、irow方法	根据整数位置选取单列或单行，并返回一个Series
get_value、set_value	根据行标签和列标签选取单个值

运算：

　　　　默认情况下，Dataframe和Series之间的算术运算会将Series的索引匹配到的Dataframe的列，沿着列一直向下传播。若索引找不到，则会重新索引产生并集。

Index

　　　　pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等）。构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index。Index对象不可修改，从而在多个数据结构之间安全共享。

主要的Index对象	说明
Index	最广泛的Index对象，将轴标签表示为一个由Python对象组成的NumPy数组
Int64Index	针对整数的特殊Index
MultiIndex	“层次化”索引对象，表示单个轴上的多层索引。可以看做由元组组成的数组
DatetimeIndex	存储纳秒级时间戳（用NumPy的Datetime64类型表示）
PeriodIndex	针对Period数据（时间间隔）的特殊Index

主要的Index属性

函数	说明
Index([x,y,...])	创建索引
append(Index)	连接另一个Index对象，产生一个新的Index
diff(Index)	计算差集，产生一个新的Index
intersection(Index)	计算交集
union(Index)	计算并集
isin(Index)	检查是否存在与参数索引中，返回bool型数组
delete(i)	删除索引i处元素，得到新的Index
drop(str)	删除传入的值，得到新Index
insert(i,str)	将元素插入到索引i处，得到新Index
is_monotonic()	当各元素大于前一个元素时，返回true
is_unique()	当Index没有重复值时，返回true
unique()	计算Index中唯一值的数组

posted @ 2017-12-15 14:38 风在人舟阅读(8595) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

风在人舟

Pandas的常用方法

Series

公告