Pandas(数据分析处理库)代码大全写在前面:1.读取.csv格式的数据文件2. DataFrame类型的变量拥有的操作
Pandas简介:Python Data Analysis Library(数据分析处理库) 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
pandas的数据结构:
Series: ** 一维 ** 数组,与Numpy中的一维ndarray类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。
Time- Series:以时间为索引的Series。
DataFrame: ** 二维 ** 的表格型数据结构,可以理解为Series的容器。
Panel : 三维 的数组,可以理解为DataFrame的容器。
本文主要介绍DateFrame数据结构。
本文中用到的数据集为food_info.csv,若有需要,在留言区留言即可获得。
本文只是介绍pandas的基本使用,若要详细深入学习,请参阅
1.读取.csv格式的数据文件

每一行:代表一种食品所包含的各种营养成分
#导包
import pandas
#读取数据文件,并将数据赋值成一个变量
food_info = pandas.read_csv("food_info.csv")
#将数据赋值成一个变量后,打印此变量的类型为Dataframe
print(type(food_info))
#打印文件中数据的类型。object类型即string类型
print(food_info.dtypes)
#若对pandas中的某函数不了解,可以通过help()来查看
print(help(pandas.read_csv)) ```
运行结果:

补充:DataFrame结构中的dtype类型
object————for string values
int————for integer values
float————for float values
datetime————for time values
bool————for Boolean values
# 2. DataFrame类型的变量拥有的操作
在第一步中,将要处理的数据文件读取出来并赋值给一个变量food_info,此变量的类型为DataFrame类型,下边将会对这个变量进行操作。
## 2.1 .head()函数:读取并显示数据的前几行
### A. 无参数:缺省默认显示前5行数据
```code
#缺省默认显示前5行数据
food_info.head()```
运行结果:

### B. 有参数: .head(a)函数如果添加参数a,则显示数据的前a行
```code
#读取并显示数据的前3行
food_info.head(3) ```
运行结果:

## 2.2 .tail()函数:读取并显示数据的后几行
### A. 无参数:.缺省默认显示后5行数据
```code
#缺省默认显示后5行数据
food_info.tail() ```
运行结果:

### B. 有参数:.tail(a)函数如果添加参数a,则显示数据的末尾a行
```code
#读取并显示数据的后3行
food_info.tail(3) ```
运行结果:

有print与没有print的区别
没有实质性的差别,只是显示的形式不同而已。
```code
print(food_info.tail(3)) #有print和没有print显示形式有些不同
[/code]
运行结果:

## 2.3 .columns函数:读取并显示列名
```code
#读取并显示列名
food_info.columns
#print(food_info.columns)
[/code]
运行结果:

## 2.4 .shape函数:返回数据文件的行数和列数
```code
#读取并显示文件的行数和列数
food_info.shape ```
运行结果:

## 2.5 .loc[ ]函数:读取文件中 特定行位置 的数据
在Pandas中取文件特定位置的数据不像python和numpy中那样直接通过index来调
### A. .loc[a]函数,参数a:取第a+1行的数据(index是从0开始的)
```code
#读取并显示特定行的数据
#返回第一行的文件数据
food_info.loc[0]
[/code]
运行结果:

注意:当index的值超过了文件的样本个数,会报错(越界)
```code
#返回第8889行的文件数据
food_info.loc[8888] ```
运行结果:

### B. .loc[a:b]函数,参数a:b :取从第a行到第b行的数据
```code
#返回数据文件的3——6行数据
food_info.loc[3:6] ```
运行结果:

### C. .loc[[a,b,c]]函数,参数a,b,c :取第a,b,c三行的数据
注意:这里的参数是 ** 元组 ** 形式 [a, b, c]
```code
#返回数据文件的3,5,7行数据
food_info.loc[[3,5,7]] ```
运行结果:

## 2.6 读取文件中 特定列位置 的数据
### A. 取一列数据
```code
#读取并显示列名为“NDB_No”所在的那一列
ndb_col = food_info["NDB_No"]
print(ndb_col)
#也可以将列名“NDB_No”赋值给变量,然后通过变量来返回数据
col_name = "NDB_No"
ndb_col = food_info[col_name]
print(ndb_col)
[/code]
运行结果:

### B. 取 **特定几列数据**
想要取特定的几列,则只需要将想要取得列的列名弄到一起,组成一个list就可以了