论文阅读 | CBAM
CBAM
KAIST ECCV'18
Insight
SE-Net 只考虑了通道之间的相关性,而忽略了位置信息的重要性。因此,本文将通道注意力和空间注意力进行了串联,并且在 Squeeze 阶段使用了最大池化和平均池化。
Design
Overview
整体结构如图所示。
特征图依次通过 CA-Block 和 SA-Block 进行通道加权和空间加权。在 CA 阶段,注意力形状为 \(\mathbf{M}_C \in \mathbb{R}^{1 \times 1 \times C}\),分别对每个通道调整权重;在 SA 阶段,注意力形状为 \(\mathbf{M}_S \in \mathbb{R}^{H \times W \times 1}\),分别对每个像素调整权重。通道注意力与空间注意力正交地学习。
Att Block
CA 与 SA 计算过程如图。CBAM 沿用了 SE-Net 的 Squeeze 压缩 → Excitation 激励设计。
Squeeze 阶段,同时使用了全局最大池化 (GMP) 和全局平均池化 (GAP) 以有效获取更全面的信息表示。Excitation 阶段,CA 和 SA 分别沿空间和通道方向聚合,通过共享的 MLP 计算注意力权重。
Summary
- 对 Squeeze 进行了微小改进以获取信息表示更全面的通道 / 空间描述符。
- 独立考虑了通道与空间维度的注意力权重,可能无法捕获 CA 与 SA 之间的潜在依赖。在 DUN-CSNet 一文中介绍了像素级步长生成网络,或可作为创新点,对 CBAM 进行改进,实现通道与空间信息的跨维度交互。

浙公网安备 33010602011771号