pandas模块

pandas的两个主要数据对象：Series,DataFrame

Series:是一种类似于数组的对象，它由一组数据（各种numpy数据类型）以及一组与之相关的数据标签组成。

仅由一组数据即可产生最简单的Series，并且会自动产生索引：

可以通过Series的values和index分别获取数组的值和索引：

还可以指定索引的值：

可以通过索引的方式选取Series中的单个或一组值：比如输入obj2[a]，输出：1

如果数据被放在一个Python字典中，也可以直接通过这个字典来创建Series：a=Series(字典）

对于许多引用而言，Series最重要的一个功能是：它在算术运算中会自动对齐不同的索引，Series对象本身及其索引都有一个name属性，该属性跟pandas其他的关键字功能关系非常密切，Series的索引可以通过赋值的方式就地修改。

构建DataFrame的方法很多，最常用的一种是直接传入一个由等长列表或者numpy数组组成的字典，DataFrame（data，columns=['a','b','c']）会按照abc的方式进行排列。

嵌套字典：也就是字典中的字典，如果帮它传给dataframe，它就会被解释为：外层的字典的键作为列，内层的键则作为行索引。

调用series的reindex将会根据新索引进行排列，如果某个索引值当前不存在，就引入缺省值。如obj=obj.reindex(['a','b','c'].fill_value=0)不存在的自动填充为0.

对于时间这样的有序数据，重新索引时可能需要做一些插值处理。method选项即可达到此目的，列如：ob.reindex(range(6),method='ffill')

reindex的(插值）method选项：1.ffill或pad(前后填充或搬运值） 2.bfill或backfill后向填充或搬运值

利用ix的标签索引功能，重新索引任务可以变得更简洁，obj.ix[['a','b','c','d'],states]

posted @ 2017-10-17 19:13 罗比特阅读(201) 评论(0) 收藏举报

刷新页面返回顶部