摘要: 概述 将 Transformer 应用到视觉领域,就形成了 ViT(Vision Transformer)。 与卷积神经网络 CNN 不同,ViT 将图像切分为块并转换为向量,像是处理文本一样处理图像。这让 ViT 拥有了超越 CNN 的全局信息捕捉能力。当训练集数量足够时,ViT 表现优于 CNN 阅读全文
posted @ 2024-05-28 10:34 倒地 阅读(489) 评论(0) 推荐(0)