一、什么是pandas?它能做什么?

 二、pandas读取数据:

一)读取.csv格式文件

 1、pandas能读取的数据:可以读取表格类型的数据(二维数据)

数据类型

说明

Pandas读取方法

csv、tsv、txt

用逗号分隔、tab分割的纯文本文件

pd.read_csv

excel

微软xls或者xlsx文件

pd.read_excel

mysql

关系型数据库表

pd.read_sql

2、数据格式:

rating=pd.read_csv(fpath)

rating.head()

 

3、查看数据形状(行数/列数)

rating.shape
输出:(100836, 4)

 4、查看列名

rating.columns
输出:Index(['userId', 'movieId', 'rating', 'timestamp'], dtype='object')

 5、查看索引列

rating.index
输出:RangeIndex(start=0, stop=100836, step=1)

6、查看数据类型

rating.dtypes()
输出:
userId         int64
movieId        int64
rating       float64
timestamp      int64
dtype: object

 二)读取.txt格式文件

pvuv=pd.read_csv('access_pvuv.txt',sep='\t',header=None,names=['pdate','pv','uv'])

sep:文件中的分隔符

header:是否有标题行

names[]:添加标题行

输出:

 

 三)读取excel格式文件

f_=pd.read_excel('access_pvuv.xlsx',engine='openpyxl')

*因为xlrd库不能读xlsx,因此需要用openpyxl打开xlsx文件