实验5:ViT & Swin Transformer

实验5:ViT & Swin Transformer

姓名: 学号:
姓名和学号?
本实验属于哪门课程? 中国海洋大学25秋《软件工程原理与实践》
实验名称? 实验4 MobileNet & ShuffleNet\实验4.md) 实验5:ViT & Swin Transformer
博客链接:

学习要求

  • Transformer的基本原理
  • 典型基于Transformer的网络结构

视频学习

Vision Transformer (ViT)

ViT 网络详解: 11.1 Vision Transformer(vit)网络详解_哔哩哔哩_bilibili

使用 pytorch 实现 ViT: 11.2 使用pytorch搭建Vision Transformer(vit)模型_哔哩哔哩_bilibili

Swin Transformer

Swin Transformer网络详解: 12.1 Swin-Transformer网络结构详解_哔哩哔哩_bilibili

了解 使用 pytorch 实现 Swin Transformer: 12.2 使用Pytorch搭建Swin-Transformer网络_哔哩哔哩_bilibili

视觉Transformer综述

已经了解:青源 LIVE 第26期 | 华为诺亚韩凯:视觉 Transformer 综述_哔哩哔哩_bilibili

思考题

在ViT中要降低 Attention的计算量,有哪些方法?(提示:Swin的 Window attention,PVT的attention)

答: Vision Transformer的核心计算瓶颈是Self-Attention,其计算复杂度与输入token数量的平方成正比。为了降低计算量,就要减少参与Attention计算的token数量或降低计算每个Attention权重的成本。

  • 可以使用局部窗口注意力的方法,不进行全局的注意力计算,而是将图像划分为多个不重叠的局部窗口,只在每个窗口内部进行自注意力计算。这使计算复杂度从 O(n²) 降至 O(n)。
  • 空间缩减注意力:在进入Attention模块前,先对Key和Value的序列进行下采样(池化),减少K和V的序列长度(n-> n',其中 n' << n)。这样,Q与K的点积计算量就从O(n²d)降为O(nn'd)。

Swin体现了一种什么思路?对后来工作有哪些启发?(提示:先局部再整体)

体现了 分层设计,先局部后整体,局部与全局交替。

像CNN一样,构建层次化的特征图。随着网络加深,特征图尺寸逐渐减小,通道数逐渐增加。这使得Swin可以直接作为 backbone 替换到各种需要多尺度特征的任务中,而无需复杂适配。

启发:我们发现从局部开始信息处理是一个非常强大和有效的归纳偏置,这启发了后续大量工作基于窗口进行设计。同时分层架构是非常有效的,可以从局部特征到全局特征的演变。

有些网络将CNN和Transformer结合,为什么一般把 CNN block放在面前,Transformer block放在后面?

主要是因为两种架构对不同信息的处理能力。

CNN有强局部性,擅长提取底层、局部的特征。将CNN放在前面,可以高效、稳健地从原始像素中提取这些基础特征图。

Transformer擅长通过Self-Attention进行全局上下文建模,擅长捕获长距离的依赖关系。但是如果直接在原始图像块中输入Transformer,会导致计算量巨大。

阅读并了解Restormer,思考:Transformer的基本结构为 attention+ FFN,这个工作分别做了哪些改进?

Restormer是一个用于图像恢复任务的 Transformer 模型。它在标准Transformer的两个核心组件(Attention和FFN)上都进行了关键改进,以适配高分辨率图像处理的需求。

对Attention模块的改进:多头注意力 -> 多头转置注意力:实现了高效的全局上下文建模,因为它允许每个通道根据所有其他通道的特征图进行加权整合。

该方法采用渐进式学习的方式。训练开始,网络通过处理小尺度图像块来获取对局部细节和基础结构的认知。此后,训练尺度被有计划地逐步放大,引导网络将关注点从局部细节过渡到更宏观的视觉语境和结构关系上。

体会

心得体会

本次学习构建了从理论认知到实践反思的完整路径。在认知层面,我明确了标准Transformer凭借其自注意力机制,在捕获图像全局依赖关系上独具优势;而Swin Transformer则通过引入局部窗口注意力与分层下采样,巧妙地化解了前者的计算瓶颈。同时,我深刻体会到卷积神经网络在局部特征提取上与Transformer的全局建模能力形成的天然互补性,这为理解当前主流的混合架构奠定了理论基础。

然而,在将新知与旧有CNN等知识体系融合时,我一度感到概念交织、难以梳理。这种“云里雾里”的困惑,恰恰暴露了自身知识体系尚未成型的短板。为突破此瓶颈,我主动将新旧知识点进行对比、关联与重组,致力于构建一个层次分明、连接顺畅的统一理解框架。这一过程虽具挑战,却极大地锻炼了我的知识整合与系统化思维能力。

posted @ 2025-11-12 10:29  OUC-喇叭花  阅读(2)  评论(0)    收藏  举报