Pandas入门

数据读取

1 代码和文件放到同一个文件夹下面    pandas.read_csv("     ")

2 pandas中核心结构是  DataFrame    

3 pandas称字符型为 object                  numpy称做string

4 注意要把上一步执行完再执行下一步  不然报错

5 函数  .head(n)          显示前n条数据                       (notebook可以逐步显示) 

6 函数  .tail                  显示后n调数据

7 函数  .columns         显示每一列的列名

8 函数  .shape            显示数据样本的行列数

 

索引与计算

9 .loc[]   定位当前位置的数据   .loc[3:6]

10  利用列名(第一行的名字)读取每一列的数据

11 通过遍历数据提取出同特征的数据(如 单位相同的  g)

12 把 mg  转换成 g

13 维度相同的数据进行相应数据的计算

14 往数据中添加新的特征

15 .max  寻找最值

 

数据预处理实例(设计kaggle竞赛“泰坦尼克”数据分析    3min开始)

16 排序操作(默认从小到大)  .sort_values("   ", inplace=True)      inplace是否建立新的矩阵            ascending=False 从大到小

17 .isnull( ) 找出缺失值  并输出 T/F

18 进一步操作 找出该特征有多少个缺失值

 

常用与处理方法

19 有缺失值无法计算平均值

20 可以把缺失值去掉然后求取平局值(或者填充中位数或者众数),或者直接利用 .mean 计算平均值

21 寻找一二三等舱船票的平均价格   In[14]笨方法            In[15]利用 .pivot_table 函数 .pivot_table(index="Pclass", value="Survived", aggfunc=np.mean) 统计Pclass与Survived的平均值关系。若不指定aggfunc= 则默认为np.mean(平均值)

22 一个量与其他两个量的关系 In[17] 

23 .dropna  丢弃样本值   

 

自定义函数

24 改变索引 .reset_index(drop=True) 把原来的索引drop掉

25 def定义函数        In[23].apply函数调用自定义的函数

 

Series基本结构

26 DataFrame(矩阵)是由一系列Series(一行或者一列)构成的                Series是由nparray构成的

27 string型也像数值一样可以做索引、切片 

posted @ 2018-10-22 11:01  今天看见未来  阅读(119)  评论(0)    收藏  举报