Pandas模块学习笔记1：安装、读写文件和数据结构

1、安装和导入pandas模块

pip install pandas
import pandas as pd

2、读写文本文件csv

data = pd.read_csv( my_file.csv , sep= ; , encoding= latin-1 , nrows=1000, skiprows=[2,5])
// sep为分隔符，encoding为编码方式，nrows读取前1000行，skiprows移除第三行和第六行

data.to_csv( my_new_file.csv , index=None)
//index=None 表示将会以数据本来的样子写入。如果没有写 index=None，你会多出一个第一列，内容是 1，2，3，...，一直到最后一行。

3、pandas数据结构

（1）series：类似于一维数组的对象，它由一组数据和与之相关的索引（数值标签）组成，保留了numpy数组运算的性质（过滤、标量乘法、应用数学函数）

series最重要的一个功能就是它在算术中会自动对齐不同索引的数据

obj = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])  //生成一个series
obj.index  //获取series的索引
obj.values //获取series的值

obj['d'] = 6 // 将索引d对应的值变为6，通过索引修改series的值
obj.index = ["aa", "bb", "cc"]  //Series的索引可以通过赋值的方式就地修改


obj2 = Series(dict) //可以通过字典直接创建一个series，dict为一个字典

pd.isnull(obj2)  //检验是否有空值，返回一个布尔值的series
obj2.isnull()  //检验是否有空值，返回一个布尔值的series
pd.notnull(obj2) //检验是否有非空值，返回一个布尔值的series
obj2.notnull() //检验是否有非空值，返回一个布尔值的series

（2）dataframe：是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型，它可以被看做由Series组成的字典（共用同一个索引）。

　　　创建Dataframe的方式：（1）直接传入一个由等长列表或者Numpy数组组成的字典；（2）嵌套字典

1、直接传入一个由等长列表或者Numpy数组组成的字典
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],   
             'year': [2000, 2001, 2002, 2001, 2002],
              'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                   index=['one', 'two', 'three', 'four', 'five'])
// 如果传入的列clolumn在数据中找不到，就会产生NA值；构建dataframe包含4列，将索引更改为英文的12345

2、嵌套字典
pop = {'A':{a:1,b:2}},'B':{c:3,d:4}，index = [a,b,c,d]} //index可以指定索引
frame = DataFrame(pop) //frame的输出结果如下
     A    B
a    1    NaN
b    2    NaN
c    NaN   3
d    NaN   4
frame.T //可以对frame进行转置

行的引用：//引用第c行（第三行）

frame2.ix['c']
frame2.loc['c']
frame2.iloc[2]

列的引用：//引用第一列

frame2['A']
frame2.A

Index对象是不可修改的（immutable)，因此用户不能对其进行修改。不可修改性非常重要，因为这样才能使Index对象在多个数据结构之间安全共享。

posted @ 2021-01-19 21:14 venko 阅读(120) 评论(0) 收藏举报

刷新页面返回顶部

venko

Pandas模块学习笔记1：安装、读写文件和数据结构

公告