Pandas_HDF5

HDF5适用于处理不适合在内存中存储地超大型数据,可以使你高效读写大型数据的一小块。

1.Pandas使用HDFStore类来实现这一功能,类似字典一样的工作方式

import numpy as np
df = pd.DataFrame({'a':np.random.randn(100)})  # 有100行

print(df.head()) # 看看前5行
print('*'*20)

store = pd.HDFStore('mydata.h5')# 生成HDF5文件
store['obj1'] = df  # 以类似字典的方式,向文件里写入内容
print(store)  # 看看信息,在当前工作目录下,你可以找到这个文件
print('*'*20)

print(store['obj1']) #像字典那样索引数据:
store.close() # 关闭文件

运行结果:

          a
0 -0.864068
1 -0.210785
2 -1.442705
3 -0.012885
4  0.039723
********************
<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

********************
           a
0  -0.864068
1  -0.210785
2  -1.442705
3  -0.012885
4   0.039723
..       ...
95 -1.621428
96  1.552766
97  0.013647
98  1.109935
99  0.048601

[100 rows x 1 columns]

 

2.HDFStore支持两种工作模式,‘fixed’和‘table’。table的速度更慢,但支持一种类似数据库SQL语言的查询操作

 

store.put('obj2',df,format='table') # put是赋值的显式版本,允许我们设置其它选项

store.select('obj2', where=['index >=10 and index <= 15'])  # 类似SQl语言的查询操作,要注意空格的位置

           a
10 -1.430696
11 -0.616732
12 -0.643991
13 -0.004270
14  0.797136
15 -0.175095

store.close() # 关闭文件

tips:类似字典的工作方式就是fixed,它不支持where等sql语句

3.快捷方式

df.to_hdf('mydata.h5','obj2',format='table')

pd.read_hdf('mydata.h5','obj2',where=['index<5'])

 

posted @ 2020-05-07 23:40  li-shan  阅读(443)  评论(0)    收藏  举报