完整教程:【论文阅读 | CVPR 2024 |Fusion-Mamba :用于跨模态目标检测】
2026-01-04 10:56 tlnshuju 阅读(45) 评论(0) 收藏 举报
题目:Fusion-Mamba for Cross-modality Object Detection
会议: Computer Vision and Pattern Recognition(CVPR)
论文:https://arxiv.org/abs/2404.09146
代码:未公开
年份:2024
1.摘要&&引言
跨模态融合通过有效整合不同模态的互补信息,显著提升了目标检测性能,使其在更广泛的应用场景中更具实用性和鲁棒性。
现有融合策略通常通过精心设计的神经网络模块来结合不同类型的图像或融合不同主干特征。
然而,这些途径忽视了模态差异对跨模态融合性能的影响 —— 由于不同模态的相机焦距、位置和角度差异,其特征难以奏效融合。
本文中,基于改进的 Mamba 与门控机制,通过在隐藏状态空间中关联跨模态特征来研究跨模态融合。
我们设计了 Fusion-Mamba 模块(FMB),将跨模态特征映射到隐藏状态空间进行交互,从而减少跨模态特征差异,增强融合特征的表示一致性。FMB 包含两个模块:状态空间通道交换(SSCS)模块促进浅层特征融合,双状态空间融合(DSSF)模块构建隐藏状态空间的深层融合。在公共数据集上的大量实验表明,我们的技巧在 M³FD 数据集上 mAP 提升 5.9%,在 FLIR-Aligned 数据集上提升 4.9%,超越了现有最优方法,展现了卓越的目标检测性能。据我们所知,这是首次探索 Mamba 在跨模态融合中的潜力,并为跨模态目标检测建立了新基线。

图1. 热力图可视化。(a)和(b)为初始RGB和IR输入图像;©和(d)为使用YOLOv8单模态生成的热力图;(e)为基于CNN融合模块的YOLO-MS热力图;(f)和(g)为基于Transformer融合模块的ICAFusion和CFT热力图;(h)为我们的FMB热力图,其定位效果更佳。

图2. 所提出的Fusion-Mamba方法架构。检测网络包含双流特征提取网络和三个Fusion-Mamba模块(FMB),其颈部和头部与YOLOv8相同。顶部是大家的检测框架,ϕ i \phi_{i}ϕi和φ i \varphi_{i}φi分别是RGB和IR分支的卷积模块,用于生成F R i F_{R_{i}}FRi和F I R i F_{IR_{i}}FIRi特征;F ^ R i \hat{F}_{R_{i}}F^Ri和F ^ I R i \hat{F}_{IR_{i}}F^IRi是通过FMB增强的特征图;P 3 P_{3}P3、P 4 P_{4}P4和P 5 P_{5}P5是增强特征图的求和输出,作为颈部最后三个阶段的特征金字塔输入。底部展示了FMB的设计细节。
本文提出 Fusion-Mamba 方法,旨在隐藏状态空间中融合特征,为跨模态特征融合开辟新范式。我们受 Mamba 启发,利用其线性复杂度构建隐藏状态空间,并依据门控机制进一步改进,实现更深层、更困难的融合。我们的 Fusion-Mamba 方法核心在于创新的 Fusion-Mamba 模块(FMB),如图 2 所示。在 FMB 中,我们设计了状态空间通道交换(SSCS)模块用于浅层特征融合,以提升跨模态特征的交互能力;以及双状态空间融合(DSSF)模块,用于构建隐藏状态空间以构建跨模态特征关联与互补。这两个模块有助于减少融合过程中的模态差异,如图 1(h)所示,其热力图表明我们的手段更管用地融合了特征,使检测器更聚焦于目标。本工作的贡献如下:
1)所提出的 Fusion-Mamba 方法探索了 Mamba 在跨模态融合中的潜力,增强了融合特征的表示一致性。大家基于门控机制改进的 Mamba,构建了跨模态交互的隐藏状态空间,以减少跨模态特征差异。
2)我们设计了包含两个模块的 Fusion-Mamba 块:状态空间通道交换(SSCS)模块促进浅层特征融合,双状态空间融合(DSSF)模块完成隐藏状态空间的深层融合。
3)在三个公共 RGB-IR 目标检测数据集上的大量实验表明,我们的方法实现了现有最优性能,为跨模态目标检测方法提供了新基线。
2.方法
2.1 Fusion-Mamba
2.1.1 架构
模型架构如图 2 所示。其检测主干包含双流特征提取网络和三个 Fusion-Mamba 模块(FMB),检测网络含有用于跨模态目标检测的颈部和头部。

特征提取与多模态融合(FMB模块)
特征提取网络从 RGB 图像和红外(IR)图像中分别提取局部特征,记为F R i F_{R_i}FRi(RGB局部特征)和F I R i F_{IR_i}FIRi(IR局部特征)。

为减少跨模态特征差异并增强融合一致性,将F R i F_{R_i}FRi 和 F I R i F_{IR_i}FIRi 输入多模态融合块(FMB)。FMB的核心流程如下:
浅层特征融合(SSCS模块):
首先通过状态空间通道交换(State Space Channel Swap, SSCS)模块对 F R i F_{R_i}FRi 和 F I R i F_{IR_i}FIRi进行浅层交互,生成交互特征F ~ R i \tilde{F}_{R_i}F~Ri(RGB交互特征)和F ~ I R i \tilde{F}_{IR_i}F~IRi(IR交互特征)。深层特征融合(DSSF模块):
交互特征进一步输入双状态空间融合(Dual State Space Fusion, DSSF)模块,在隐藏状态空间中做完深层特征融合,生成互补特征F ˉ R i \bar{F}_{R_i}FˉRi(RGB互补特征)和F ˉ I R i \bar{F}_{IR_i}FˉIRi(IR互补特征)。局部特征增强:
将原始特征与互补特征逐元素相加,增强局部表征能力:
F ^ R i = F R i + F ˉ R i , F ^ I R i = F I R i + F ˉ I R i (A) \hat{F}_{R_i} = F_{R_i} + \bar{F}_{R_i}, \quad \hat{F}_{IR_i} = F_{IR_i} + \bar{F}_{IR_i} \tag{A}F^Ri=FRi+FˉRi,F^IRi=FIRi+FˉIRi(A)
其中 F ^ R i \hat{F}_{R_i}F^Ri 和 F ^ I R i \hat{F}_{IR_i}F^IRi表示增强后的RGB和IR局部特征。融合特征生成:
增强特征直接相加生成最终融合特征P i P_iPi:
P i = F ^ R i + F ^ I R i (B) P_i = \hat{F}_{R_i} + \hat{F}_{IR_i} \tag{B}P
浙公网安备 33010602011771号