vit和swin transformer的区别

ViT vs Swin Transformer

ViT 和 Swin Transformer 的区别

ViT (Vision Transformer)：

ViT 直接将图像分割成固定大小的非重叠小块（patches），然后将每个小块展开成一个向量，并将这些向量序列作为输入送入标准的Transformer架构中。每个小块会被映射到一个高维特征空间，然后经过多个Transformer Encoder层进行全局信息的建模。
ViT不具备卷积神经网络 (CNN) 的局部感知特性，完全依赖自注意力机制来捕捉图像中的全局信息。

Swin Transformer (Shifted Window Transformer)：

Swin Transformer引入了层次化的特征表示，逐层增加特征图的分辨率。
Swin Transformer通过窗口注意力机制（window attention）来进行局部注意力计算，每个窗口内进行自注意力计算，同时通过窗口的滑动（shifted window）机制来引入跨窗口的交互，这样既保留了局部信息，又捕捉到了跨区域的上下文信息。
Swin Transformer在图像中构建了类似于CNN的层次结构，但利用了Transformer的自注意力机制，使得它能够更高效地处理大尺寸图像。

ViT：

Swin Transformer：

Swin Transformer的窗口注意力机制将自注意力的计算复杂度降低到与窗口大小线性相关（O(M^2)），而不是整个图像，因此能够更高效地处理大尺寸图像。

ViT：

Swin Transformer：

ViT：

Swin Transformer：

posted @ 2024-08-24 22:56 海_纳百川阅读(1607) 评论(0) 收藏举报

刷新页面返回顶部