2025 年 11月 21 日随笔档案 - C_noized

2025年11月21日

摘要： ViT论文中提到，因为Transformer模型在NLP领域得到了广泛的应用，并被证明效果非常好，那自然而然的想法是将其应用到图像领域里来。然而直接将2维的图片按像素拉成1维，序列长度太长，所以ViT的解决思路是把一张图片分为多个patch，每个patch作为一个token。 Transforme 阅读全文

posted @ 2025-11-21 23:58 C_noized 阅读(234) 评论(0) 推荐(0)

Loading

C_noized's Blog

公告