1.13
python进行数据的清洗(二)
2.数据清洗之文件操作
Pandas读写CSV文件和相关参数解释
Pandas读写excel文件和相关参数解释
Pandas与mysql的交互
2.1 csv文件读写
pandas内置了10多种数据源读取函数,常见的就是CSV和EXCEL
使用read_csv方法读取,结果为dataframe格式
在读取csv文件时,文件名称尽量是英文
参数较多,可以自行控制,但很多时候用默认参数
读取csv时,注意编码,常用编码为utf-8、gbk 、gbk2312和gb18030等
使用to_csv方法快速保存
2.2 excel文件读写
使用read_excel读取,读取后的结果为dataframe格式
读取excel文件和csv文件参数大致一样, 但要考虑工作sheet页
参数较多,可以自行控制,但很多时候用默认参数
读取excel时,注意编码,常用编码为utf-8、gbk 、gbk2312和gb18030等
使用to_excel快速保存为xlsx格式
2.3 数据库文件读写
使用sqlalchemy建立连接
需要知道数据库的相关参数,如数据库IP地址、用户名和密码等
通过pandas中read_sql 函数读入, 读取完以后是dataframe格式
通过dataframe的to_sql方法保存
数据库建立连接参数
conn =create_engine(‘mysql+pymysql://user:passward@IP:3306/test01’)
• root: 用户名
• passward: 密码
• IP : 服务器IP,本地电脑用localhost
• 3306: 端口号
• test01 : 数据库名称
df.to_sql(name, con=engine, if_exists=‘replace/append/fail’,index=False)
• name是表名
• con是连接
• if_exists:表如果存在怎么处理。三个选项 append代表追加, replace代表删除原表,建立新表,fail代表什么都不干
• index=False:不插入索引index

浙公网安备 33010602011771号