Pandas———数据透视表和交叉表
摘要:Excel高级功能还是不太懂,如数据透视表、函数等。 在数据处理方面, 既然Excel能做的,那当然Python的pandas应该也能完成。总结下Pandas是如何完成数据透视表和交叉表的。 数据透视表 数据透视表是一种常见的数据汇总工具,根据一个或者多个键对数据进行聚合,并根据行、列分组将数据分配
阅读全文
数据处理————缺失值处理
摘要:学习kaggle输出处理整个总结,以下图、代码都来自于kaggle 的micro-course 缺失值处理 共有三种方法: 丢弃缺失值所在的行(当缺失值较多时,影响比较大,不常用此方法) 如下代码,找到任意含有缺失值的行,凡是含有确实值都从DataFrame中去掉。下面还有使用Random Fore
阅读全文
numpy 中 axis的含义和使用
摘要:numpy中axis表示轴的意思, 在某些函数(如sum,exp)中axis的值不同,计算方式不同,不理解axis的使用方法和含义,就不能用好numpy处理数据。 用示例讲解axis的含义: arrs = np.arange(24).reshape((3,2,4)) print arrs print
阅读全文
Python——pickle、csv文件操作
摘要:一、Python pickle Python 的Pickle模块是将 Python对象存入 .pkl后缀的文件,在需要使用时将其迅速转换为Python对象。 避免了多次读取数据库的操作,提高了程序执行效率。 其大致分为3步:import 、存储和读取 import pickle 存储: import
阅读全文
DataFrame————数据离散化处理(元素定位与离散化处理)
摘要:以前老踩这坑,没总结。。。。。 数据集如下: 上面age列是根据出生日期得到的年龄,我要将age连续数据离散化,改成4个年龄段的,“20~25 离散化 为数值1, 26~30 离散化为数值2, 30~35离散化为数值3 和 >35 离散化数值4 ” 的四段。修改这些数据时,需要通过行列定位再来处理,
阅读全文
Pandas -----简述 Series和DataFrame
摘要:http://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html pandas 10分钟入门教程 import pandas as pd #Series 和 DataFrame 都是 Pandas库的数据结构,使用前要导入
阅读全文