[PaperReading] Scaling Vision Transformers to 22 Billion Parameters

名称

Scaling Vision Transformers to 22 Billion Parameters
论文链接
时间：2023.02
作者与单位：Google Research
相关领域：计算机视觉、大规模视觉模型
作者相关工作：PaLM2, Genmini, ViT
被引次数：604

本文展示了将Vision Transformer扩展到220亿参数的研究。这是目前最大的视觉模型，展示了视觉模型也可以像语言模型一样进行大规模扩展，ViT 22B取得了89.5%的ImageNet分类准确率, zero-shot的精度85.9%，蒸馏了ViT-B/16达到88.6%的精度。

解决将模型参数量放大8B之后，训练Loss出现发散的问题，参考其它工作，在QK之后加上LayerNorm。

模型架构参数

训练数据：

3epoch, 1024 TPUs

89.5%

85.9%

仅1200图即可SOTA

暂无

posted @ 2025-03-11 21:40 fariver 阅读(143) 评论(0) 收藏举报

刷新页面返回顶部