数据加载、存储与文件格式
读写文本格式的数据
#pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。
read_csv            #从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号。
read_table          #从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符('\t')
read_fwf            #读取定宽列格式数据(也就是说,没有分隔符)
read_clipboard      #读取剪贴板中的数据,可以看做是read_table的剪贴板版。在将网页转换为表格时很有用
read_excel          #从excel xls或xlsx file读取表格数据
read_hdf            #读取pandas写的HDF5文件
read_html           #读取HTML文档中的所有表格
read_json           #读取JSON字符串中的数据
read_msgpack        #二进制编码的pandas数据
read_pickle         #读取python pickle格式中存储的任意对象
read_sas            #读取存储于SAS系统自定义格式的SAS数据集
read_sql            #读取数据库中的数据
read_stata          #读取Stata文件格式的数据集
read_feather        #读取Feather二进制文件
#read_csv、read_table函数的参数,同时也适用于其他读取文件的函数。
path                #表示需要读取的文件路径和文件名
sep或delimiter      #用于对行中各字段进行拆分的字符序列或正则表达式
header              #指定文件中第几行的数据为列名。默认为0(第一行),如果没有header行就应该设置为None
index_col           #用于指定行号。可以是单个名称、数字或由多个名称、数字组成的列表(层次化索引)
names               #用于指定列名
skiprows            #需要忽略的行数(从文件开始处算起)
na_values           #一组用于替换NA的值
comment             #用于将注释信息从行尾拆分出去的字符(一个或多个)
parse_dates         #尝试将数据解析为日期,默认为False。如果为True,则尝试解析所有列,也可以指定需要解析的一组列号或列名。如果列表中的元素为列表或元组,就会将多个列组合到一起再进行日期解析工作
keep_date_col       #如果连接多列解析日期,则保持参与连接的列。默认为False
converters          #由列号/列名跟函数之间的映射关系组成的字典。例如,{'foo':f}会对foo列的所有值应用函数f
dayfirst            #当解析有歧义的日期时,将其看做国际格式。默认为False
date_parser         #用于解析日期的函数
nrows               #需要读取的行数(从文件开始处算起)
iterator            #返回一个TextParser以便逐块读取文件
chunksize           #文件块的大小(用于迭代)
skip_footer         #需要忽略的行数(从文件末尾处算起)
verbose             #打印各种解析器输出信息,比如“非数值列中缺失值的数量”等
encoding            #用于unicode的文本编码格式
squeeze             #如果数据经解析后仅含一列,则返回Series
thousands           #千分位分隔符,如“,”或“.”
 
将数据写出
pd.to_csv()       #将数据输出为CSV文件
pd.to_sql()       #将数据输入到SQL数据库中
#如果要写入excel中,需要创建一个ExcelWriter
writer = pd.ExcelWriter('test.xlsx')
pd.to_excel(wrtier, 'Sheet1')    #将数据写入到EXCEl文件中
wrtier.save()
#如果要读取一个excel文件,需要创建一个实例
xlsx = pd.ExcelFile('test.xlsx')