Python数据分析Pandas库方法简介

Pandas 入门

Pandas简介

背景pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观。它旨在成为在Python中进行实际,真实世界数据分析的基础高级构建块。此外,它还有更广泛的目标,即成为任何语言中最强大,最灵活的开源数据分析/操作工具。它已朝着这个目标迈进

  • pandas组成 = 数据面板+数据分析工具

  • pandas把数据分为3类

    • 一位矩阵:Series 强大在可以存储任意类型数据 二维矩阵: DataFrame 三维矩阵; Panel

pandas数据结构

  • Series:一维数组。类型Numpy的一维数组,强大在可以存储任意类型数据

  • Time-Series:以时间维索引的Series

  • DataFrame: 二位的表格数据结构,===升级版矩阵

    • 它含有一组有序的列,每列可以是不同的值类型(数值,字符串,)

 

pandas的数据类型

  • 导入pandas

    import pandas as pd
  • 读取csv文件,数据类型就是DataFrame二维矩阵

    a = pd.read_csv(path)
    type(a)
  • 属性和方法

    • 类型 type(a)

    • 维度 a.ndim

    • 形状 a.shape

    • 大小 a.size

    • 数据类型 a.dtypes

    • 帮助 help(pd)

索引操作

  • 前n行:head(n)

  • 后n行:tail(n)

  • 第n行: df.loc[n]

  • 第3-7行: df.loc[2:8]

  • 取任意行: df.loc[[2,3,5]]

  • 取某列: df['列名'] df.列名

  • 取任意列:df[['列1',‘列2’,。。。]]

 

案例 取出所有g为结尾的列

a = df.columns.tolist()
bb = []
for x in a:
   if x.endswith('(g)') or x.endswith('(mg)'):
       bb.append(x)
       
df[bb]

简单统计

数据统计

  • 摘要描述/简介:df.describe()

  • 一维。value_counts()统计以为矩阵中数组出现的次数: 比如统计成绩

  • 最大: df['列名'].max()

  • 最小 :min

  • 平均值:mean

  • 标准差 std

 

案例分析2成绩分析

# 案例-成绩分析
chengji = pd.read_excel('score.xlsx')
chengji['成绩'].describe()
chengji['成绩'].value_counts()
a = chengji['成绩']
a[a<80]

 

 

 

 

 

 

 

posted @ 2018-12-12 17:01  郭峰g  阅读(1194)  评论(1编辑  收藏  举报