python的pandas库学习（不间断更新）

　　"人生苦短，我用python。"

　　数据处理这块，最近在学习使用python的pandas库，这里就写点笔记，方便回顾和复习吧。

　　一、理解

　　　　1、pandas读入csv或者其他文件后的对象称之为Dataframe，每列又分别是一个Series，这一点非常重要。

　　　　2、pandas的函数大都返回一个查询结果集，通过中括号选定然后赋值才能真正获得这个结果集。

　　二、编码（详细开发文档见http://pandas.pydata.org/pandas-docs/stable/index.html）

　　1.first

import pandas as pd

　　2.读入和写出

data = pd.read_csv('data.csv')
data.to_csv('output.csv')

　　3.增删改查

#增加 待添加

#删除
data = data.dropna() #删除空值，注意dropna返回的是个查找集，需赋值得到结果集
data=data[['年级','性别','年龄','身高','体重']] #取某些列

#修改 
data.身高 = data.身高 +10 #pandas可对整列直接处理

#查找
data=data[(data.年级>1) & (data.性别==1)]    #中括号内是查找，查找完后记得赋值才能得到结果集

　　4.其他

#排序
data = data.sort_values(by="身高")

#替换
data.身高 = data.身高.replace(0 , numpy.NaN) #将0值替换成空值，注意0值和空值的区别

posted on 2017-11-19 13:53 Qiubiubiu 阅读(192) 评论(0) 编辑收藏举报