数据集托管平台汇总比较

引言

  • 最近考虑构建一些测试数据集评测基准,用于评测算法在数据集上的效果。
  • 不同于论文中用到的公开数据集,这里构建的数据集更有针对性的,用户可根据业务具体需求,自行增删,使得在数据集上的指标更加贴近实际业务场景。
  • 我这里只是提供一个基准平台,会默认给出一些标注好的数据集。当然,目前只是我的设想,也一直有在做,敬请期待后续更新。

数据集托管平台需要满足的条件:

  1. 可以用代码轻松下载使用。 举个例子,如果下载公开的数据集,还需要登录相关账号,这就不太方便了。
  2. 提供数据预览界面, 便于快速评估是否是自己需要的;
  3. 可以方便对已有数据集做增删改查, 便于大家共同维护。

☆☆☆ 魔搭平台

  • 官网
  • 魔搭平台似乎是做国内版的Hugging Face,大的基本功能块和Hugging Face均类似。这也算是业界良心了,咱还要啥自行车呢?
  • 经过调研,魔搭平台也有数据集管理的功能。除了上述条件1,其余均都满足。
  • ✓不满足条件1:轻量下载数据集的包。
    • 通过查看modelscope中数据集使用指南发现msdatasetsmodelscope的核心管理模块,这也就意味着:如果想要在modelscope上下载数据集,就要先安装modelscope这个巨大的包。
    • 这无疑是很不方便,modelscope依赖众多包,包括torchmmcv-fulltensorflow等等。
    • 这一点,我已经向modelscope提了issue #369,期待可以变得独立且轻量一些。→ 调研发现直接安装modelscope,是不会安装上述的依赖的,现在就可以快乐的使用了。
  • ✓ 满足条件2:提供了数据预览界面。以OCR-光学字符识别-复旦-中文为例:
    在这里插入图片描述
  • ✓ 满足条件3:方便增删改查。同样也是基于Git搭建管理的,同上,不再赘述。

☆☆☆ Hugging Face Dataset

  • 官网
  • 该平台目前契合上述所有的条件。只是有一点不好:对国内用户不方便下载。
  • ✓ 满足条件1:两行代码轻松下载使用。同时不依赖transformers这个巨大的库,很轻量。
    # pip install datasets
    from datasets import load_dataset
    dataset = load_dataset("SWHL/TableRecognition")
    
  • ✓ 满足条件2:提供数据预览界面。下面以zh-plus/tiny-imagenet为例,在Dataset card界面,提供了Dataset Viewer界面,截图如下(具体可自行前往查看):
    在这里插入图片描述
  • ✓ 满足条件3:可以方便对已有数据集做增删改查。因为Hugging Face中所有的功能都是基于Git + Git LFS搭建的,因此天然具有对数据集的版本控制能力。在Hugging Face的Datasets选项卡中创建新的数据集之后,就可以在界面上上传数据集了,非常方便。类似于下图:
    在这里插入图片描述

☆ OpenDataLab

  • 官网
  • 国内平台,下载友好。但是对于数据集权限管理过于粗放,全部需要登录注册才可使用。
  • ✗ 不满足条件1:代码轻松下载使用。如果想要在平台上使用指定数据集,不管你是数据集的维护者,还是使用者,全部都要注册申请账号。
  • ✓ 满足条件2:提供预览界面。经过实际查看,存在个别数据集没有提供,不过不影响有这个功能的判断。以MNIST-M为例:
    在这里插入图片描述
  • ✗ 不满足条件3:方便增删改查。这个平台似乎假定数据集是一个不那么频繁改动的,似乎编辑数据集这块没有做过多接口,下图来自官方文档
    在这里插入图片描述

总结

  • 当然,除了以上3个之外,也许还会有其他类似功能的平台。欢迎看到的小伙伴指出。
  • 综上比较来看,自己还是比较倾向于Hugging Face一些。如果魔搭可以搞一个轻量的数据集管理包,我会立马转向魔搭的。已经转向魔搭。
posted @ 2023-07-09 12:33  Danno  阅读(71)  评论(0编辑  收藏  举报