[PaperReading] Scaling Vision Transformers to 22 Billion Parameters
目录
名称
Scaling Vision Transformers to 22 Billion Parameters
论文链接
时间:2023.02
作者与单位:Google Research
相关领域:计算机视觉、大规模视觉模型
作者相关工作:PaLM2, Genmini, ViT
被引次数:604
TL;DR
本文展示了将Vision Transformer扩展到220亿参数的研究。这是目前最大的视觉模型,展示了视觉模型也可以像语言模型一样进行大规模扩展,ViT 22B取得了89.5%的ImageNet分类准确率, zero-shot的精度85.9%,蒸馏了ViT-B/16达到88.6%的精度。
Method
解决将模型参数量放大8B之后,训练Loss出现发散的问题,参考其它工作,在QK之后加上LayerNorm。

模型架构参数

Code && Implementation
训练数据:
- JFT-4B数据集(40亿图像)
Experiment
实现细节
3epoch, 1024 TPUs
Linear Eval on ImageNet
89.5%

Zero-shot Eval on ImageNet
85.9%

Dense Prediction
仅1200图即可SOTA

Related works中值得深挖的工作
暂无
本文来自博客园,作者:fariver,转载请注明原文链接:https://www.cnblogs.com/fariver/p/18766067

浙公网安备 33010602011771号