《利用Python进行数据分析》第6章学习笔记
数据加载、存储与文件格式
读写文本格式的数据
逐块读取文本文件
read_xsv参数nrows=x
要逐块读取文件,需要设置chunksize(行数),返回一个TextParser对象。
还有一个get_chunk方法,它使你可以读取任意大小的块。
将数据写出到文本格式
DataFrame的to_csv()
Series的to_csv()和from_csv()和read_csv()
手工处理分隔符格式
JSON数据
python标准库中有专门操作模块
json.loads()
json.dumps()
转换为DataFrame
XML和HTML:Web信息收集
lxml处理
lxml.html处理HTML
lxml.objectify处理XML
期权:是指使你有权从现在开始到未来某个时间(到期日)内以某个特定价格(执行价)买进(看涨期权)或卖出(看跌期权)某公司股票的衍生合约。
利用lxml.objectify解析XML
二进制数据格式
pickle序列化
pd中:
save()
load()
使用HDF5格式
模块 PyTable和h5py
pandas中HDFStore类
读取Microsoft Excel文件
pandas中的ExcelFile类(需要xlrd和openpyxl库)
使用HTML和Web API
使用数据库
存取MongoDB中的数据