会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Loading
C_noized's Blog
博客园
首页
新随笔
联系
订阅
管理
2025年11月21日
Vision Transformer (ViT) 原理及解读
摘要: ViT论文中提到,因为Transformer模型在NLP领域得到了广泛的应用,并被证明效果非常好,那自然而然的想法是将其应用到图像领域里来。 然而直接将2维的图片按像素拉成1维,序列长度太长,所以ViT的解决思路是把一张图片分为多个patch,每个patch作为一个token。 Transforme
阅读全文
posted @ 2025-11-21 23:58 C_noized
阅读(234)
评论(0)
推荐(0)
公告