2024 年 5月 28 日随笔档案 - 倒地

2024年5月28日

摘要：概述将 Transformer 应用到视觉领域，就形成了 ViT（Vision Transformer）。与卷积神经网络 CNN 不同，ViT 将图像切分为块并转换为向量，像是处理文本一样处理图像。这让 ViT 拥有了超越 CNN 的全局信息捕捉能力。当训练集数量足够时，ViT 表现优于 CNN 阅读全文

posted @ 2024-05-28 10:34 倒地阅读(530) 评论(0) 推荐(0)

chirp

公告