pandas

1.pandas数据读取和预处理

简述:pandas在numpy的基础上又封装了一些操作,相当于把函数做了一些简化。pandas不做可视化,主要是在预处理方面。

文件读取

pandas.read_csv('文件名')   其中文件要以逗号为分隔符

对象.head(3)   查看表/文件的前3行,正向取

对象.tail(3)      看后三行,从后往前数。

对象.columns     列 的名字   ,如 表头

对象.loc[0]    拿第一行数据,  如:[3:6],4到6行数据,[2,5,6]拿2,5,6号数据

对象['列名']    拿到这一列的数据    对象['列名1',‘列名2’]  拿两列

numpy的数据格式为ndarray, pandas为DataFrame(数据流)

pandas的dtype: int,float,object

2.预处理    (+ — *  /)

对象['列名']/100   这一列的数据都除以100,其他同理

对象.sort_values('列名')    按这一列的数据大小排序

pandas.isnull(age)    age为一行/列的数据列表,查看是否有空数据

对象['Age'].mean()   求均值

对象.dropna(axios=0,subset=['Age','Sex'])     去掉Age,Sex这一列

对象.apply(value)         写一个自定义函数,return给f函数,value就是这个函数   

(def  value():

  xxxxxx

  return  xxxxx)

3.Pandas-Series结构

Series(collection  of   values)

DataFrame(collection  of Series objects)

posted @ 2019-04-15 18:04  bin-y  阅读(269)  评论(0编辑  收藏  举报