Loading

摘要: ViT论文中提到,因为Transformer模型在NLP领域得到了广泛的应用,并被证明效果非常好,那自然而然的想法是将其应用到图像领域里来。 然而直接将2维的图片按像素拉成1维,序列长度太长,所以ViT的解决思路是把一张图片分为多个patch,每个patch作为一个token。 Transforme 阅读全文
posted @ 2025-11-21 23:58 C_noized 阅读(234) 评论(0) 推荐(0)