摘要: 重新索引 pandas对象的一个重要反复是reindex,其作用是创建一个适应新索引的新对象。 如果某个索引值不存在,就引入缺失值 对于时间序列这样的有序数据,重新索引时可能需要做一些插值处理,method选项即可达到目的 reindex的(插值) method选项 fill或pad:前向填充(或搬 阅读全文
posted @ 2018-11-18 20:20 Arish 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 要使用pandas,需要熟悉它的两个主要的数据结构,Series和DataFrame。 Series series是一种类似于以为数组的对象,它由一组数据(各种numpy的数据类型)以及一组与之相关的数据标签(索引)组成。仅有一组数据即可产生简单的Series: series的字符串表现形式为:索引 阅读全文
posted @ 2018-11-18 14:27 Arish 阅读(480) 评论(0) 推荐(0) 编辑
摘要: 目录: 1. pandas的数据结构介绍 2.基本功能 3.汇总和计算描述统计 4.处理缺失数据 5.层次化索引 6.其他 阅读全文
posted @ 2018-11-18 13:29 Arish 阅读(162) 评论(0) 推荐(0) 编辑
摘要: numpy.random模块对Python内置的random进行了补充,增加了一些用于高效生成多种概率分布的样本值的函数。如可以用normal来得到一个标准正态分布的4*4的样本数组: 而Python内置的random模块则只能一次生成一个样本值。从下面的测试结果可以看到,如果需要产生大量的样本值, 阅读全文
posted @ 2018-11-18 13:24 Arish 阅读(368) 评论(0) 推荐(0) 编辑
摘要: 利用数组的文件输入输出 1. 将数组以二进制格式保存到磁盘 np.save和np.load是读写磁盘数组数据的两个主要函数。默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中的。 如果文件路径末尾没有扩展名.npy,则该扩展名会自动加上。然后就可以通过np.load读取磁盘上数 阅读全文
posted @ 2018-11-18 13:12 Arish 阅读(630) 评论(0) 推荐(0) 编辑