pandas模块
pandas的两个主要数据对象:Series,DataFrame
Series:是一种类似于数组的对象,它由一组数据(各种numpy数据类型)以及一组与之相关的数据标签组成。
仅由一组数据即可产生最简单的Series,并且会自动产生索引:

可以通过Series的values和index分别获取数组的值和索引:

还可以指定索引的值:

可以通过索引的方式选取Series中的单个或一组值:比如输入obj2[a],输出:1
如果数据被放在一个Python字典中,也可以直接通过这个字典来创建Series:a=Series(字典)
对于许多引用而言,Series最重要的一个功能是:它在算术运算中会自动对齐不同的索引,Series对象本身及其索引都有一个name属性,该属性跟pandas其他的关键字功能关系非常密切,Series的索引可以通过赋值的方式就地修改。

构建DataFrame的方法很多,最常用的一种是直接传入一个由等长列表或者numpy数组组成的字典,DataFrame(data,columns=['a','b','c'])会按照abc的方式进行排列。
嵌套字典:也就是字典中的字典,如果帮它传给dataframe,它就会被解释为:外层的字典的键作为列,内层的键则作为行索引。
调用series的reindex将会根据新索引进行排列,如果某个索引值当前不存在,就引入缺省值。如obj=obj.reindex(['a','b','c'].fill_value=0)不存在的自动填充为0.
对于时间这样的有序数据,重新索引时可能需要做一些插值处理。method选项即可达到此目的,列如:ob.reindex(range(6),method='ffill')
reindex的(插值)method选项:1.ffill或pad(前后填充或搬运值) 2.bfill或backfill后向填充或搬运值
利用ix的标签索引功能,重新索引任务可以变得更简洁,obj.ix[['a','b','c','d'],states]

浙公网安备 33010602011771号