Pandas模块学习笔记1:安装、读写文件和数据结构

1、安装和导入pandas模块

pip install pandas
import pandas as pd

2、读写文本文件csv

data = pd.read_csv( my_file.csv , sep= ; , encoding= latin-1 , nrows=1000, skiprows=[2,5])
// sep为分隔符,encoding为编码方式,nrows读取前1000行,skiprows移除第三行和第六行

data.to_csv( my_new_file.csv , index=None)
//index=None 表示将会以数据本来的样子写入。如果没有写 index=None,你会多出一个第一列,内容是 1,2,3,...,一直到最后一行。

3、pandas数据结构

(1)series:类似于一维数组的对象,它由一组数据和与之相关的索引(数值标签)组成,保留了numpy数组运算的性质 (过滤、标量乘法、应用数学函数)

                       series最重要的一个功能就是它在算术中会自动对齐不同索引的数据

obj = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])  //生成一个series
obj.index  //获取series的索引
obj.values //获取series的值

obj['d'] = 6 // 将索引d对应的值变为6,通过索引修改series的值
obj.index = ["aa", "bb", "cc"]  //Series的索引可以通过赋值的方式就地修改


obj2 = Series(dict) //可以通过字典直接创建一个series,dict为一个字典

pd.isnull(obj2)  //检验是否有空值,返回一个布尔值的series
obj2.isnull()  //检验是否有空值,返回一个布尔值的series
pd.notnull(obj2) //检验是否有非空值,返回一个布尔值的series
obj2.notnull() //检验是否有非空值,返回一个布尔值的series

(2)dataframe:是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型,它可以被看做由Series组成的字典(共用同一个索引)。

   创建Dataframe的方式:(1)直接传入一个由等长列表或者Numpy数组组成的字典;(2)嵌套字典

1、直接传入一个由等长列表或者Numpy数组组成的字典
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2001, 2002], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9]} DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five']) // 如果传入的列clolumn在数据中找不到,就会产生NA值;构建dataframe包含4列,将索引更改为英文的12345

2、嵌套字典
pop = {'A':{a:1,b:2}},'B':{c:3,d:4},index = [a,b,c,d]} //index可以指定索引
frame = DataFrame(pop) //frame的输出结果如下
A B
a 1 NaN
b 2 NaN
c NaN 3
d NaN 4
frame.T //可以对frame进行转置

行的引用://引用第c行(第三行)

frame2.ix['c'] 
frame2.loc['c']
frame2.iloc[2]

列的引用://引用第一列

frame2['A']
frame2.A

 

Index对象是不可修改的(immutable),因此用户不能对其进行修改。不可修改性非常重要,因为这样才能使Index对象在多个数据结构之间安全共享。

 

posted @ 2021-01-19 21:14  venko  阅读(107)  评论(0)    收藏  举报