雷毅

导航

《利用Python进行数据分析》第6章学习笔记

数据加载、存储与文件格式

读写文本格式的数据

 

逐块读取文本文件

read_xsv参数nrows=x

要逐块读取文件,需要设置chunksize(行数),返回一个TextParser对象。

还有一个get_chunk方法,它使你可以读取任意大小的块。

将数据写出到文本格式

DataFrame的to_csv()

Series的to_csv()和from_csv()和read_csv()

手工处理分隔符格式

JSON数据

python标准库中有专门操作模块

json.loads()

json.dumps()

转换为DataFrame

XML和HTML:Web信息收集

lxml处理

lxml.html处理HTML

lxml.objectify处理XML

期权:是指使你有权从现在开始到未来某个时间(到期日)内以某个特定价格(执行价)买进(看涨期权)或卖出(看跌期权)某公司股票的衍生合约。

利用lxml.objectify解析XML

二进制数据格式

pickle序列化

pd中:

save()

load()

使用HDF5格式

模块 PyTable和h5py

pandas中HDFStore类

读取Microsoft Excel文件

pandas中的ExcelFile类(需要xlrd和openpyxl库)

使用HTML和Web API

使用数据库

存取MongoDB中的数据

 

posted on 2016-09-28 19:16  雷毅  阅读(225)  评论(0编辑  收藏  举报