Python数据分析Pandas库方法简介

Pandas 入门

Pandas简介

背景：pandas是一个Python包，提供快速，灵活和富有表现力的数据结构，旨在使“关系”或“标记”数据的使用既简单又直观。它旨在成为在Python中进行实际，真实世界数据分析的基础高级构建块。此外，它还有更广泛的目标，即成为任何语言中最强大，最灵活的开源数据分析/操作工具。它已朝着这个目标迈进

pandas组成 = 数据面板+数据分析工具
pandas把数据分为3类
- 一位矩阵：Series 强大在可以存储任意类型数据二维矩阵： DataFrame 三维矩阵; Panel

pandas数据结构

Series:一维数组。类型Numpy的一维数组，强大在可以存储任意类型数据
Time-Series:以时间维索引的Series
DataFrame: 二位的表格数据结构，===升级版矩阵
- 它含有一组有序的列，每列可以是不同的值类型（数值，字符串，）

pandas的数据类型

导入pandas
```
import pandas as pd
```
读取csv文件，数据类型就是DataFrame二维矩阵
```
a = pd.read_csv(path)
type(a)
```
属性和方法
- 类型 type(a)
- 维度 a.ndim
- 形状 a.shape
- 大小 a.size
- 数据类型 a.dtypes
- 帮助 help(pd)

索引操作

前n行：head(n)
后n行：tail(n)
第n行： df.loc[n]
第3-7行： df.loc[2:8]
取任意行： df.loc[[2,3,5]]
取某列： df['列名'] df.列名
取任意列：df[['列1'，‘列2’，。。。]]

案例取出所有g为结尾的列

a = df.columns.tolist()
bb = []
for x in a:
    if x.endswith('(g)') or x.endswith('(mg)'):
        bb.append(x)
        
df[bb]

简单统计

数据统计

摘要描述/简介：df.describe()
一维。value_counts()统计以为矩阵中数组出现的次数：比如统计成绩
最大： df['列名'].max()
最小：min
平均值：mean
标准差 std

案例分析2成绩分析

# 案例-成绩分析
chengji = pd.read_excel('score.xlsx')
chengji['成绩'].describe()
chengji['成绩'].value_counts()
a = chengji['成绩']
a[a<80]

posted @ 2018-12-12 17:01 郭峰g 阅读(1216) 评论(1) 收藏举报

朋友的泪

Python数据分析Pandas库方法简介

Pandas 入门

Pandas简介

pandas数据结构

pandas的数据类型

索引操作

案例取出所有g为结尾的列

简单统计

数据统计

案例分析2成绩分析

公告

朋友的泪

Python数据分析Pandas库方法简介

Pandas 入门

Pandas简介

pandas数据结构

pandas的数据类型

索引操作

案例 取出所有g为结尾的列

简单统计

数据统计

案例分析2成绩分析

公告

案例取出所有g为结尾的列