数据集读取方法速查表

数据集读取方法速查表

每次选择数据读取方法时,可以先问自己三个问题:

  1. 数据从哪来?本地文件夹、Hugging Face、CSV、JSON,还是别的来源?
  2. 样本是什么?图片、文本、表格、音频,还是检测/分割标注?
  3. 准备用什么训练?PyTorch、Hugging Face Trainer、scikit-learn,还是 TensorFlow/Keras?

常用选择表

你手里的数据长这样 样本类型 标签在哪里 推荐读取方法 所属包 / 模块 后续通常怎么喂给模型
train/cat/1.jpgtrain/dog/2.jpg 图片分类 文件夹名就是标签 torchvision.datasets.ImageFolder(...) torchvision torch.utils.data.DataLoader(...) 生成 batch,再写 PyTorch 训练循环
一堆 .jpg/.png,另有 labels.csv 图片分类 CSV 里写图片名和标签 自定义 torch.utils.data.Dataset torch torch.utils.data.DataLoader(...) 生成 batch,再写 PyTorch 训练循环
Hugging Face 上的数据集名,如 imdbbeans 文本/图片/音频 数据集自带 datasets.load_dataset(...) datasets,也叫 Hugging Face Datasets 常配合 transformers.Trainer;也可以转成 PyTorch batch
data.csv / data.tsv 表格或文本 某一列是标签 pandas.read_csv(...) pandas 表格 ML 可直接给 scikit-learn;深度学习则再转 Dataset/DataLoader
data.csv,想按 HF 格式处理 表格或文本 某一列是标签 datasets.load_dataset("csv", data_files=...) datasets 常配合 transformers.Trainer;也可以转成 PyTorch batch
data.json / data.jsonl 文本、多模态、结构化数据 JSON 字段里 datasets.load_dataset("json", data_files=...) datasets 常配合 transformers.Trainer;也可以转成 PyTorch batch
xxx.txt,一行一条文本 文本 通常无标签,或另有文件 datasets.load_dataset("text", data_files=...) datasets 常配合 NLP/语言模型训练流程
图片 + COCO 的 annotations.json 目标检测/分割 JSON 里有框/掩码 torchvision.datasets.CocoDetection(...) torchvision torch.utils.data.DataLoader(...) 生成 batch,再给 PyTorch 检测模型
.wav/.mp3 音频文件 音频 文件夹名或 CSV datasets.load_dataset("audiofolder", ...) 或自定义 torch.utils.data.Dataset datasets / torch HF 训练流程,或 PyTorch DataLoader
scikit-learn 教程数据,如鸢尾花 表格分类 数据集自带 sklearn.datasets.load_iris() scikit-learn 直接给 scikit-learn 模型的 .fit(X, y)
TensorFlow 项目里的数组/文件 图片/文本/表格 自己指定 tf.data.Dataset... tensorflow 直接给 TensorFlow/Keras 的 .fit(...)

常见 import 写法

# PyTorch Dataset / DataLoader
from torch.utils.data import Dataset, DataLoader

# torchvision 图片数据集和图片变换
from torchvision import datasets, transforms

# Hugging Face Datasets
from datasets import load_dataset

# pandas 表格
import pandas as pd

# scikit-learn 内置数据集
from sklearn import datasets as sk_datasets

# TensorFlow
import tensorflow as tf

注:AI整理生成

posted @ 2026-05-14 15:34  ZZYpeace  阅读(18)  评论(0)    收藏  举报