hdf5 存储格式

hdf5是一种用于存储和管理大规模数据集的文件格式,广泛应用在数据科学中,pandas 等一些dataframe 框架提供了直接读写处理

包含的特点

  1. 层次化结构

    • HDF 文件可以组织成类似文件系统的层次结构,包含“组”和“数据集”。
    • 组相当于文件夹,数据集相当于文件。
  2. 跨平台支持

    • HDF 文件在不同的平台(Windows、Linux、macOS 等)之间具有良好的兼容性。
  3. 大数据支持

    • HDF 适合处理高维数据、大规模科学数据集(如气象数据、卫星影像)。
  4. 丰富的元数据支持

    • 数据集和组可以附加属性信息(元数据),方便描述和管理数据。
  5. 多种编程语言支持

    • 支持 Python(通过 h5py 或 PyTables)、C/C++、Java、Fortran 等语言。

说明

hdf5 主要应用在数据科学周边,比如早期版本keras模型可以存储为h5格式的,一些机器学习的数据也使用h5格式,新的一些使用parquet 的比较多了,对于python 开发有h5py,但是PyTables 提供了更加方便的集成,使用更加方便

参考资料

https://docs.h5py.org/en/stable/ https://github.com/HDFGroup/hdf5 https://github.com/h5py/h5py https://www.hdfgroup.org/downloads/hdf5/ https://github.com/PyTables/PyTables

posted on 2025-02-04 08:00  荣锋亮  阅读(290)  评论(0)    收藏  举报

导航