PyTables 基于hdf5 以及numpy 分层数据集包

PyTables 基于hdf5 以及numpy 分层数据集包,pandas 内部对于hdf5格式的处理就是基于了此包

包含的特性

  • 支持表实体操作
  • 多维以及表单元嵌入支持
  • 表列支持索引操作
  • 支持基于numpy 的数字数组
  • 可扩展数组
  • 可变长度数组
  • 支持层级结构数据模型
  • 用户定义元数据
  • 支持读以及修改通用的hdf5 格式文件
  • 数据压缩,提供了不少数据压缩格式支持
  • 高性能i/o操作
  • 支持大于2G文件
  • 架构无关(主要是基于了hdf5 点的特点)

说明

对于hdf5文件的操作基于PyTables 相比原生的h5py 会方便不少,同时也有利于与pandas以及duckdb 或者其他兼容dataframe的工具

参考资料

https://github.com/PyTables/PyTables

posted on 2025-02-06 08:00  荣锋亮  阅读(48)  评论(0)    收藏  举报

导航