学习pandas时的难点

一、Series  

  Series是一种类似一维数组的对象,它是由一组数据(任何NumPy类型的数据)和一组与之相关的标签(索引)组成。

1、Series中的values仅为它的属性

2、检索只能按照索引检索

Series检索数据方式为:

DataFrame的检索方式为:

按列:obj[a]为检索列,说是列比较常用

按行:obj.iloc[a]为按行检索

3、对Series对象操作也是元素级的

4、字典可以直接用来创建Series

5、pandas通过isnull和notnull来检测是否缺失数据

二、DataFrame表格型数据结构

  它含有一组有序的列,每列可以是不同的值类型。它既有行索引也有列索引。

1、每个列其实是一个Series

2、列比较会返回列元素的布尔值

3、为DataFrame的index和column设置列名

4、index的属性和方法

eg:

obj4.index.intersection(obj3)
Out[39]: 
Int64Index([1, 2], dtype='int64')
obj4.index.union(obj3)
Out[40]: 
Int64Index([0, 1, 2], dtype='int64')
obj4.index.diff(obj3)
Out[41]: 
Int64Index([0], dtype='int64')

5、reindex介绍

6、drop用法

7、类似numpy的一种索引方式

8、对NaN空值的处理

9、numpy的ufuncs函数可以用于操作pandas对象

10、apply函数的应用

 

11、对行列索引进行排序

12、按行求和计算

13、返回最大最小值索引

14、计算一个DataFrame与另一个Series或者DataFrame之间的相关系数矩阵

15、元素的唯一、频率

16、对NaN值的处理

17、层次化索引

18、stack和unstack,转化为DataFrame

19、根据级别进行统计汇总

18、将DataFrame中的列转换为行索引

相反操作为:

 

posted on 2017-07-21 14:24  小鸟的士林  阅读(349)  评论(0)    收藏  举报

导航