Pandas模块学习笔记1:安装、读写文件和数据结构
1、安装和导入pandas模块
pip install pandas import pandas as pd
2、读写文本文件csv
data = pd.read_csv( my_file.csv , sep= ; , encoding= latin-1 , nrows=1000, skiprows=[2,5]) // sep为分隔符,encoding为编码方式,nrows读取前1000行,skiprows移除第三行和第六行 data.to_csv( my_new_file.csv , index=None) //index=None 表示将会以数据本来的样子写入。如果没有写 index=None,你会多出一个第一列,内容是 1,2,3,...,一直到最后一行。
3、pandas数据结构
(1)series:类似于一维数组的对象,它由一组数据和与之相关的索引(数值标签)组成,保留了numpy数组运算的性质 (过滤、标量乘法、应用数学函数)
series最重要的一个功能就是它在算术中会自动对齐不同索引的数据
obj = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c']) //生成一个series obj.index //获取series的索引 obj.values //获取series的值 obj['d'] = 6 // 将索引d对应的值变为6,通过索引修改series的值 obj.index = ["aa", "bb", "cc"] //Series的索引可以通过赋值的方式就地修改 obj2 = Series(dict) //可以通过字典直接创建一个series,dict为一个字典 pd.isnull(obj2) //检验是否有空值,返回一个布尔值的series obj2.isnull() //检验是否有空值,返回一个布尔值的series pd.notnull(obj2) //检验是否有非空值,返回一个布尔值的series obj2.notnull() //检验是否有非空值,返回一个布尔值的series
(2)dataframe:是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型,它可以被看做由Series组成的字典(共用同一个索引)。
创建Dataframe的方式:(1)直接传入一个由等长列表或者Numpy数组组成的字典;(2)嵌套字典
1、直接传入一个由等长列表或者Numpy数组组成的字典
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2001, 2002], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9]} DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five']) // 如果传入的列clolumn在数据中找不到,就会产生NA值;构建dataframe包含4列,将索引更改为英文的12345
2、嵌套字典
pop = {'A':{a:1,b:2}},'B':{c:3,d:4},index = [a,b,c,d]} //index可以指定索引
frame = DataFrame(pop) //frame的输出结果如下
A B
a 1 NaN
b 2 NaN
c NaN 3
d NaN 4
frame.T //可以对frame进行转置
行的引用://引用第c行(第三行)
frame2.ix['c']
frame2.loc['c']
frame2.iloc[2]
列的引用://引用第一列
frame2['A']
frame2.A
Index对象是不可修改的(immutable),因此用户不能对其进行修改。不可修改性非常重要,因为这样才能使Index对象在多个数据结构之间安全共享。

浙公网安备 33010602011771号