python的pandas库学习(不间断更新)

  "人生苦短,我用python。"

  数据处理这块,最近在学习使用python的pandas库,这里就写点笔记,方便回顾和复习吧。

 

  一、理解

    1、pandas读入csv或者其他文件后的对象称之为Dataframe,每列又分别是一个Series,这一点非常重要。

    2、pandas的函数大都返回一个查询结果集,通过中括号选定然后赋值才能真正获得这个结果集。

 

  二、编码(详细开发文档见http://pandas.pydata.org/pandas-docs/stable/index.html

  1.first

import pandas as pd

 

  2.读入和写出

data = pd.read_csv('data.csv')
data.to_csv('output.csv')

 

  3.增删改查

#增加 待添加

#删除
data = data.dropna() #删除空值,注意dropna返回的是个查找集,需赋值得到结果集
data=data[['年级','性别','年龄','身高','体重']] #取某些列

#修改 
data.身高 = data.身高 +10 #pandas可对整列直接处理

#查找
data=data[(data.年级>1) & (data.性别==1)]    #中括号内是查找,查找完后记得赋值才能得到结果集

 

  4.其他

#排序
data = data.sort_values(by="身高")

#替换
data.身高 = data.身高.replace(0 , numpy.NaN) #将0值替换成空值,注意0值和空值的区别

 

posted on 2017-11-19 13:53  Qiubiubiu  阅读(192)  评论(0编辑  收藏  举报