pandas的使用

包概述

pandas是一个python的包提供快速,灵活和富有表现力的数据结构,旨在使'关系'或标记数据的使用既简单有直观,他的目标是成为用python进行实现实际的,真实的数据分析的基础高级模块.此外,他还有宏远的目标,即成为超过任何语言的最强大,最灵活的开源数据分析/操作工具,他一朝着这个目标迈进

pandas非常适合不同类型的数据

1.具有异构类型列的表格数据,入SQL表或Excel电子表格
2.有序和无序(不一定是固定频率)时间序列数据
3.具有行和列标签的任意据陈数据(均匀类型或异构)
4.任何其他形式的观察/统计数据集.实际上不需要将数据标记为放置在Pandas数据结构中

pandas的两个主要数据结构Serice(1维)和DataFrame(2维),处理金融,统计,社会科学和许多工程领域中的绝大多数典型用例,对于R用户,DataFrame提供R的data.frame提供的所有内容以及更多内容,pandas建立在NumPy之上,旨在与许多其他第三方库完美地集成在科学计算环境中

一下是pandas做够胜任的一些事情

1.在浮点和非浮点数据中轻松处理缺失数据(表示为NaN)
2.大小可变性:可以从DataFrame和更高维度的对象中插入和删除
3.自动和显示数据对齐:对象可以明确的与一组标签对齐,或者用户可以简单的忽略标签,让Series,DataFrame等在计算机中自动晦气数据
4.强大,灵活的组(group by)功能,可对数据集执行拆分应用组合操作,用于聚合和转换数据
5.轻松将其他python和Numpy数据结构中的不规则,不同素银数据转换为Dataframe对象
6.基于智能标签的切片,花式索引和子集大数据集
7.直观合并和加入数据集
9,灵活的重塑和数据集的旋转
10.轴的分层标记(每个刻度可能有多个标签)
11.强大的IO工具,用于从平面文件(csv和分割),Excel文件,数据库以及能从超快的HDF5格式中保存或加载数据
12.特定时间序列功能:如期范围生成和频率转换,移动窗口统计,一定窗口线性回归,日期转换和滞后等

其中许多技术都是为了解决使用其他语言/科研环境经核查那个遇到的缺点,对于数据科学家来说,处理数据通常分为多个阶段:整理和清理数据,分析/建模数据,然后分析结果组织成适合绘图或表格显示的形式,Pandas是完成所有这些任务的理想工具

pandas的开发速度很快,许多低级算法为已经在Cpython中进行了大量优化,然而,与其他任何事物一样,这样做通常会牺牲性能,因此,如果您专注于应用程序的一个功能,您可以更快常见一个专用的工具

pandas是statsmodels的依赖,使其成为python中统计计算生态系统的重要组成部分

pandas已广泛用于金融领域的应用和生产

数据结构

维数名称描述
1 Series 可以看做有标签(默认是整数序列RangeIndex;可以重复)的一维数组(同类型)。是scalars的集合,同时也是DataFrame的元素。
2 DataFrame 一般是二维标签,尺寸可变的表格结构,具有潜在的异质型列。

为什么有多个数据结构?

考虑pandas数据结构的最佳方式是作为低位数据的灵活容器,来如,DataFrame是Series的容器,Series是scalars是scalars的容器,我们希望能够以类似字典的方式从这些容器中插入和删除对象

 

此外,我们希望通用API函数的合理认为考虑到时间序列和横截面数据集的典型方向,当使用ndarrays存储2维和3维数据是,在编写函数是会给用户带来负担以考虑数据集的方向;轴被认为或多或少相等(除非C-或Fortran-连续性对性能有影响).在Pandas中,轴旨在为数据提供更多的语义含义;即,对于特定数据集,可能存在定向数据的'正确'方式,因此,目标是减少在下游功能中编码数据转换所需的精力

 

此外.我们希望公共API函数的合理默认行为考虑到时间序列和横截面数据集的典型方向,当使用ndarray存储2维和3维数据时,用户在编写函数时需要考虑数据集的方向;轴被认为或多或少是等价的(除非C或Fortran邻接关系到想能).在pandas中,轴旨在为数据提供更多的语义含义;即,对于特定的数据集,可能会哟一种'正确'的方式来确定数据的方向,因此,目标是减少在下游函数中编写数据转换代码所需的脑力劳动

举个例子,对于表格数据(DataFrame),考虑索引(行)和列*(而不是轴0和轴1)在语义上更有帮助,因此,迭代DataFrame的列会产生更具可读性的代码:

for col in df.clumns:

  series = df[col]

  # do something with series

 

posted @ 2019-10-15 15:46  7411  阅读(57)  评论(0)    收藏  举报