Python笔记：pandas之数据加载与存储

数据加载、存储与文件格式

读写文本格式的数据

#pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。
read_csv            #从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号。
read_table          #从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符（'\t'）
read_fwf            #读取定宽列格式数据（也就是说，没有分隔符）
read_clipboard      #读取剪贴板中的数据，可以看做是read_table的剪贴板版。在将网页转换为表格时很有用
read_excel          #从excel xls或xlsx file读取表格数据
read_hdf            #读取pandas写的HDF5文件
read_html           #读取HTML文档中的所有表格
read_json           #读取JSON字符串中的数据
read_msgpack        #二进制编码的pandas数据
read_pickle         #读取python pickle格式中存储的任意对象
read_sas            #读取存储于SAS系统自定义格式的SAS数据集
read_sql            #读取数据库中的数据
read_stata          #读取Stata文件格式的数据集
read_feather        #读取Feather二进制文件

#read_csv、read_table函数的参数，同时也适用于其他读取文件的函数。
path                #表示需要读取的文件路径和文件名
sep或delimiter      #用于对行中各字段进行拆分的字符序列或正则表达式
header              #指定文件中第几行的数据为列名。默认为0（第一行），如果没有header行就应该设置为None
index_col           #用于指定行号。可以是单个名称、数字或由多个名称、数字组成的列表（层次化索引）
names               #用于指定列名
skiprows            #需要忽略的行数（从文件开始处算起）
na_values           #一组用于替换NA的值
comment             #用于将注释信息从行尾拆分出去的字符（一个或多个）
parse_dates         #尝试将数据解析为日期，默认为False。如果为True，则尝试解析所有列，也可以指定需要解析的一组列号或列名。如果列表中的元素为列表或元组，就会将多个列组合到一起再进行日期解析工作
keep_date_col       #如果连接多列解析日期，则保持参与连接的列。默认为False
converters          #由列号/列名跟函数之间的映射关系组成的字典。例如，{'foo':f}会对foo列的所有值应用函数f
dayfirst            #当解析有歧义的日期时，将其看做国际格式。默认为False
date_parser         #用于解析日期的函数
nrows               #需要读取的行数（从文件开始处算起）
iterator            #返回一个TextParser以便逐块读取文件
chunksize           #文件块的大小（用于迭代）
skip_footer         #需要忽略的行数（从文件末尾处算起）
verbose             #打印各种解析器输出信息，比如“非数值列中缺失值的数量”等
encoding            #用于unicode的文本编码格式
squeeze             #如果数据经解析后仅含一列，则返回Series
thousands           #千分位分隔符，如“,”或“.”

将数据写出

pd.to_csv()       #将数据输出为CSV文件
pd.to_sql()       #将数据输入到SQL数据库中


#如果要写入excel中，需要创建一个ExcelWriter
writer = pd.ExcelWriter('test.xlsx')
pd.to_excel(wrtier, 'Sheet1')    #将数据写入到EXCEl文件中
wrtier.save()

#如果要读取一个excel文件，需要创建一个实例
xlsx = pd.ExcelFile('test.xlsx')

posted @ 2021-07-07 17:13 游虚子阅读(396) 评论(0) 收藏举报

刷新页面返回顶部

游虚子

Python笔记：pandas之数据加载与存储

数据加载、存储与文件格式

读写文本格式的数据

将数据写出

公告