python Day1 数据

day01：数据处理工具Pandas

买了本新书，写点笔记.

----

准备数据

## 1.1数据读取与存储

read_csv()

filepath_or_buffer
sep : 默认逗号
delimiter : 可选, 作为sep配置分隔符的别名
delim_whitespace : 配置是否用空格作为分隔符, 如果值为True, 那么sep参数就失效了
header : 配置用行数作为列名，默认为自动推断
names : 列名，如果目标文件没有表头, 则需要配置header=None, 否则第一行会被配置为列名
usecols : 用来选择读取csv文件的指定列名
dtype : 配置所读数据的类型
encoding : 一般使用UTF-8或者GBK

to_csv()

path_or_buf
sep
na_rep : 配置空值补全的值, 默认用空格
float_format : 配置将浮点数转为字符串
columns : 配置需要写入列的列名, 默认从第一列开始写入
header : 配置是否写入列名, 默认写入
index : 配置是否写入行名, 默认写入
index_label : 配置用来作为列索引的列
mode : 写入模式, 默认为W
encoding : 编码, 只针对py3以前的版本
line_terminator : 配置每行的结束符, 默认\n
quotin : csv引用规则
quotechar : 配置用来作为引用的空格，默认空格
chunksize : 配置每次写入的行数
tuplesize_cols : 写入list的格式，默认是元组
date_format : 配置时间数据的格式

to_json()

path_or_buf
data_format : 配置时间数据的格式，epoch表示配置成时间戳的格式，iso表示配置成ISO 8601格式
double_precision : 配置小数点后保留的位数，默认10位
force_ascii : 是否强制将String转码为ASCII，默认转
date_unit : 配置时间数据的格式，可以精确到秒级或毫秒级

read_json()

filepath_or_buffer
type : 配置生成Series或是DataFrame，默认后者

## 1.2数据查看

df.shape #查看数据的维度，shape[0]返回行数,shape[1]返回列数

df.head() #返回前五行，可以将想看的行数传进去

df.tail() #返回后五行

df.describe() #数据汇总

df.info() #查看数据情况

## 1.3数据选择

（1）用列名选择

df[col_name]

df.colname

df[[col1,col2]]

（2）用索引选择

df.iloc[1] #第二行元素

df.loc[0] #取行索引叫0的行

## 1.4数据合并

pd.concat([df1,df2]) #按行拼接数据

pd.merge(df1,df3,on='id') #按列进行拼接

pd.append() #增加某列的数据

## 1.5数据清理

df.isnull() #检查是否是空值

df.isnull().sum() #空值的统计，按列

df.fillna(n) #用n替换空值

df.dropna() #删除包含空值的行或者列，默认删除行，输入参数axis=1则删除包含空值的列

## 1.6数据处理

df.astype() #转换数据类型

df['values'].astype(float)#将df数据中的values列转换为float格式

df.columns.value_counts() #统计唯一值的个数

df.sort_values(by=colname,ascending=True) #序列排序

posted @ 2020-09-14 00:47 Shilo 阅读(212) 评论(0) 收藏举报

刷新页面返回顶部

实用主义

能起作用的代码都是好代码