Vision Transformer (ViT) :Transformer在computer vision领域的应用(四) - 指南

Experiment的下半部分。

PRE-TRAINING DATA REQUIREMENTS

ViT在一个超大的资料集上做的预训练，在这一章节论文讨论了一下这个资料集的规模到底有多大影响，多少材料才能补充上Tranformer欠缺的归纳偏置。The Vision Transformer performs well when pre-trained on a large JFT-300M dataset. With fewer inductive biases for vision than ResNets, how crucial is the dataset size? We perform two series of experiments.

实验一：预训练数据集规模决定大模型（ViT-L）的优势能否发挥

论文从两个方向去做的变量控制：

模型变量：ViT-Base（小模型）、ViT-Large（大模型）；
数据变量：预训练数据集从 “小→中→大” 递增(First, we pre-train ViT models on datasets of increasing size: ImageNet, ImageNet-21k, and JFT- 300M. )：
- 小：ImageNet（1.2M 样本，1k 类）；
- 中：ImageNet-21k（14M 样本，21k 类）；
- 大：JFT-300M（300M 样本，数百万类）；

posted @ 2025-09-17 17:19 yfceshi 阅读(21) 评论(0) 收藏举报

刷新页面返回顶部