学习pandas时的难点
一、Series
Series是一种类似一维数组的对象,它是由一组数据(任何NumPy类型的数据)和一组与之相关的标签(索引)组成。
1、Series中的values仅为它的属性

2、检索只能按照索引检索
Series检索数据方式为:

DataFrame的检索方式为:
按列:obj[a]为检索列,说是列比较常用
按行:obj.iloc[a]为按行检索
3、对Series对象操作也是元素级的

4、字典可以直接用来创建Series

5、pandas通过isnull和notnull来检测是否缺失数据

二、DataFrame表格型数据结构
它含有一组有序的列,每列可以是不同的值类型。它既有行索引也有列索引。
1、每个列其实是一个Series

2、列比较会返回列元素的布尔值

3、为DataFrame的index和column设置列名

4、index的属性和方法

eg:
obj4.index.intersection(obj3) Out[39]: Int64Index([1, 2], dtype='int64') obj4.index.union(obj3) Out[40]: Int64Index([0, 1, 2], dtype='int64') obj4.index.diff(obj3) Out[41]: Int64Index([0], dtype='int64')
5、reindex介绍


6、drop用法

7、类似numpy的一种索引方式


8、对NaN空值的处理

9、numpy的ufuncs函数可以用于操作pandas对象

10、apply函数的应用


11、对行列索引进行排序



12、按行求和计算

13、返回最大最小值索引

14、计算一个DataFrame与另一个Series或者DataFrame之间的相关系数矩阵

15、元素的唯一、频率


16、对NaN值的处理


17、层次化索引


18、stack和unstack,转化为DataFrame

19、根据级别进行统计汇总

18、将DataFrame中的列转换为行索引

相反操作为:

浙公网安备 33010602011771号