DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once

摘要

可见光与红外图像融合是图像融合领域的核心任务之一，其目标是生成兼具清晰结构信息与高质量纹理特征的融合图像，为高层视觉任务提供支持。然而，当可见光图像面临严重光照退化时，现有图像融合方法的融合结果常呈现模糊、昏暗的视觉效果，给自动驾驶带来重大挑战。为此，本文提出一种无暗化（Darkness-Free）网络，用于同步处理可见光与红外图像的解纠缠及融合任务（DFVO）。该网络采用级联多任务策略，替代传统的两阶段级联训练（增强 - 融合）模式，解决了层级数据传输过程中产生的信息熵损失问题。具体而言，本文构建潜在公共特征提取器（LCFE），为级联任务策略获取潜在特征。首先，设计细节提取模块（DEM）以获取高频语义信息；其次，提出超交叉注意力模块（HCAM），用于提取低频信息并保留源图像的纹理特征；最后，设计相关损失函数指导整个网络学习，从而实现更优的图像融合效果。大量实验表明，所提方法在定性与定量评估上均优于当前主流方法。特别地，DFVO 在黑暗环境中能生成更清晰、信息更丰富、光照更均匀的融合结果，在 LLVIP 数据集上取得最优性能，峰值信噪比（PSNR）达 63.258 dB，相关系数（CC）达 0.724，为高层视觉任务提供更有效的信息支持。相关代码已公开，链接为：https://github.co m/DaV i n-Qi 530/DFVO。

关键词：图像融合；光照退化；级联多任务；红外图像；高层视觉任务

1 引言

随着成像技术的发展，可见光传感器已成为自动驾驶领域环境感知的首选方案。然而，当面临可见光光照退化问题时，单模态传感器往往无法准确、全面地描述整个场景。因此，图像融合算法应运而生，其能从配对的可见光 - 红外图像中提取关键信息并融合为单幅图像，为后续应用提供便利。具体而言，可见光图像包含符合人类视觉感知的有效色彩信息与丰富纹理信息；而红外图像通过捕捉物体的热辐射信息，即使在恶劣环境下也能保持完整的结构信息。因此，可见光与红外图像融合的核心任务是生成兼具丰富纹理细节、清晰结构信息与良好色彩感知的融合图像，进而应用于目标检测 [1]-[3]、实例分割 [4]、自主导航 [5] 等高层计算机视觉任务。

根据融合策略的不同，可见光与红外图像融合可分为两大类：传统方法与基于深度学习的方法。传统方法可进一步细分为多尺度变换类 [6]、[7]、显著性分析类 [8]、子空间学习类 [9]、稀疏编码类 [10] 及混合类 [11] 模型。这类方法的核心思路是通过数学模型表达并提取源图像的特征信息，再采用合适的融合策略对提取的特征进行融合。基于深度学习的融合策略则可分为卷积神经网络（CNN）类 [12]、自编码器（AE）类 [13]、生成对抗网络（GAN）类 [14] 及 Transformer 类 [15]、[16] 方法。其中，CNN 类与 AE 类方法遵循 “特征提取 - 特征融合 - 特征重建” 的流程，但 CNN 类方法更注重损失函数的设计，而 AE 类方法则聚焦于自编码器的特征提取与重建能力；Transformer 类方法在融合过程中更强调多模态特征的上下文表达能力；GAN 类方法则通过对抗学习，在无监督学习框架下生成逼近多模态信息分布的融合图像。

尽管基于深度学习的方法能生成效果优异的融合图像，且研究人员将融合图像质量置于优先考虑的位置，但当面临低光照导致的图像退化以及红外图像中像素区域信息缺失的问题时，融合效果往往难以令人满意。为解决这一问题，研究人员提出无暗化图像融合方法 [18]-[24]。这类方法均采用两阶段级联训练策略，以获取具有良好视觉感知的融合图像。具体而言，两阶段训练方法需分别学习两个子模块网络：第一阶段，网络专注于光照增强，旨在解纠缠场景光照信息；第二阶段，网络以增强后的图像为基础进行图像融合，目标是生成适用于低光照环境的融合图像。

如图 1 (a) 所示，DIVFusion 方法在阶段间采用单尺度数据进行信息传输，导致融合结果存在噪声过多、过饱和等问题。对此，EFMN [21] 提出在阶段间采用多尺度数据传输，如图 1 (b) 所示。然而，根据信息熵 [25] 理论，这类级联阶段优化方法会导致输入信息在每个阶段逐渐损失，并放大处理过程中产生的噪声，从而严重影响融合图像质量，如图 1 所示。为解决这一问题，本文提出一种创新性的整体网络，将传统的两阶段级联学习转化为级联多任务学习模式。通过任务特定的损失函数指导网络，DFVO 不仅能处理场景光照退化问题，还能生成纹理清晰、信息丰富的融合图像。本文的主要贡献可总结如下：

提出一种 “同步学习” 网络，可同时完成多项关键任务。该网络采用级联多任务策略进行指导，实现低光照环境下光照增强与图像融合的整体学习；
构建细节提取模块（DEM）以提取高频语义信息，并设计超交叉注意力模块（HCAM）以提取基础特征信息；
设计任务特定的损失函数，提升融合图像的视觉质量，减少局部过曝光对融合图像的影响；
实验表明，所提方法在低光照环境下生成的融合图像清晰度更高、亮度更均衡、色彩还原更准确。

（图 1：低光照环境下现有融合方法与 DFVO 的对比。(a) 单尺度数据传输流程（如 DIVFusion [17]、Ev-fusion [18]、L2fusion [19]、LENFusion [20]）；(b) 多尺度数据传输流程（如 EFMN [21]）。其中，对比图像上方为 DIVFusion 的结果，下方为本文方法的结果。“E” 表示下采样，“E” 表示特征扩展。）

3 所提方法

3.1 同步学习级联任务

本文方法采用单阶段级联多任务架构，使网络能够同时完成多项关键任务。整体工作架构如图 2 所示，级联任务$f_t$的定义如下：

3.1.1 红外图像重建任务

考虑到共享层需充分学习源图像的特征信息，且该任务需为图像融合任务的级联学习提供支持，同时需对红外图像进行重建，因此该任务可表示为：

$
I^{ir}=f_{1}\left(\Theta_{ir}+\Phi_{ir}\right) \tag{1}
$

其中，$I^{ir} \in \mathbb{R}^{H \times W \times 1}$表示重建后的红外图像；$f_1$为该任务的特定网络，由 4 个 3×3 卷积层构成，前 3 个卷积层后均连接转置卷积操作、批归一化（BN）及 LeakyReLU 激活函数，最后 1 个卷积层后连接 Sigmoid 函数；$\Theta_{ir}$与$\Phi_{ir}$为共享层的输出，代表潜在红外特征。通过该任务，共享层能保留更丰富的红外特征，为主要的图像融合任务提供更优质的红外图像支持。

3.1.2 光照解纠缠任务

为避免生成的图像受黑暗环境影响，该任务在特征层面采用 Retinex 理论 [45] 生成退化光照图像，从而分离低光照图像的光照信息。同时，该任务生成的增强图像还能进一步提升融合图像的亮度。具体任务定义为：

$\begin{cases} I^{R}=f_{2}\left( \Theta _{vi}+\Phi _{vi}\right) \\ I^{il}=f_{EC-DC}\left(I^{y}\right) \end{cases} \tag{2}$

其中，$I^R$、$I^{il} \in \mathbb{R}^{H \times W \times 1}$分别表示增强图像与光照图像；$I^y$表示可见光图像的 Y 通道；$f_2$为光照解纠缠任务的特定网络，其结构与$f_1$一致；$\Theta_{vi}$与$\Phi_{vi}$为共享层输出的潜在可见光特征。需注意的是，光照图像仅学习源图像的亮度信息，因此本文设计独立配置的编码器 - 解码器网络$f_{EC-DC}$以减轻该任务的负担，其具体结构如图 2 所示。通过该任务，可获得亮度适宜的增强图像，并为级联的图像融合任务提供支持。

3.1.3 图像融合任务

作为核心任务，图像融合任务需引导整个网络聚焦于提取特征信息的融合过程。具体而言，本文采用共享层输出的潜在特征作为融合特征，以减少数据传输过程中的信息熵损失。图像融合任务可表示为：

$ I^{f}=f_{3}\left(\left(\Theta_{ir}+\Theta_{vi}\right) \odot\left(\Phi_{ir}+\Phi_{vi}\right)\right) \tag{3}$

其中，$I^f \in \mathbb{R}^{H \times W \times 1}$表示融合图像；$f_3$为图像融合任务的特定网络，其结构与$f_1$类似，但额外增加 1 个转置卷积层；$\odot$表示通道维度的拼接操作。

3.2 潜在公共特征提取器

3.2.1 细节提取模块（DEM）

为更好地提取高频细节特征的语义信息分布，本文构建细节提取模块（DEM）。DEM 的网络架构如图 2 (a) 所示，其迭代过程可定义为：

$\begin{aligned} \sum_{n=1}^{C/2} \Theta_{I}^{t+1} &= \sum_{n=1}^{C/2} \Theta_{I}^{t} + f_{BRB}\left(\sum_{n=C/2}^{C} \Theta_{I}^{t}\right) \\ \sum_{n=C/2}^{C} \Theta_{I}^{t+1} &= f_{BRB}\left(\sum_{n=1}^{C/2} \Theta_{I}^{t+1}\right) + \sum_{n=C/2}^{C} \Theta_{I}^{t} \otimes e^{f_{BRB}\left(\sum_{n=1}^{C/2} \Theta_{I}^{t+1}\right)} \end{aligned}$

其中，$\otimes$表示通道维度的乘法操作；$C$表示特征的总通道数；$t$表示每个阶段的迭代次数；$f_{BRB}$表示瓶颈残差块（BRB）[46]。需注意的是，BRB 中的批归一化（BN）层可能对 DEM 产生异常约束，导致 DEM 的输出趋于 0，因此本文在 DEM 中移除了 BRB 的 BN 层。

基于式 (4) 得到的特征$\sum_{n=1}^{C/2} \Theta_{I}$与$\sum_{n=C/2}^{C} \Theta_{I}$，可进一步获取细节特征：

$ \begin{cases} \Theta_{I}^{t}=A_{t}\left(F_{I}\right), & t=0 \\ \Theta_{I}^{t+1}=A_{t+1}\left(\sum_{n=1}^{C/2} \Theta_{I}^{t+1} \odot \sum_{n=C/2}^{C} \Theta_{I}^{t+1}\right), & 0<t<T \end{cases} $

其中，$A(\cdot)$ 表示去斑噪声操作，由 1 个 3×3 卷积层构成；$F_I$表示双通道编码器输出的可见光与红外特征；$\odot$表示通道维度的拼接操作；$T=3$表示总迭代阶段数；$\Theta_{I}^{t}$表示每个迭代过程的输出特征。

为更直观地观察整个迭代过程的变化，如图 3 (a) 所示，可见光细节特征$\Theta_{vi}$与红外细节特征$\Theta_{ir}$被逐步提取，为级联任务生成语义信息更丰富的图像提供支持。

3.2.2 超交叉注意力模块（HCAM）

为辅助 DEM，本文设计超交叉注意力模块（HCAM），用于从源图像中提取低频特征，为级联任务提供基础信息。HCAM 的具体结构如图 2 (b) 所示，其处理过程可表示为：

$
\Phi_{vi}=f_{C}^{-1}\left(f_{CA_{vi}}\right)+F_{vi}
$

其中，$f_{C}^{-1}$表示多个转置卷积操作；$F_{vi}$表示双通道编码器输出的可见光特征；$f_{CA_{vi}}$用于引导网络聚焦于特定区域，其定义为：

$
f_{CA_{vi}}=softmax\left(\frac{Q\left(\left|\nabla\left(\varphi_{vi} \odot \varphi_{ir}\right)\right|\right) K\left(\left|\nabla \varphi_{ir}\right|\right)^{T}}{\sqrt{d_k}}\right) V\left(\varphi_{vi}\right) \tag{7}
$

其中，$d_k$表示矩阵维度；$|\cdot|$表示绝对值操作；$Q$、$K$、$V$分别表示查询矩阵、键矩阵、值矩阵；$\nabla$表示 Sobel 算子；$\odot$表示拼接操作，用于增加查询矩阵$Q$的信息含量；$\varphi_{vi}$与$\varphi_{ir}$为$f_{CA_{vi}}$的输入特征，通过卷积操作与最大池化函数计算得到。

如图 3 (b) 所示，可见光图像中人体目标难以分辨，而对应的红外图像则能清晰呈现结构信息。因此，本文采用超交叉注意力策略解决这一问题：具体而言，将红外结构特征$|\nabla \varphi_{ir}|$作为式 (7) 中键矩阵$K$的输入，使 HCAM 以超交叉注意力的方式聚焦于多模态特征信息。此外，$\Phi_{ir}$的表达式与$\Phi_{vi}$类似，可定义为：

$\Phi_{ir}=f_{C}^{-1}\left(f_{CA_{ir}}\right)+F_{ir} \tag{8}$

其中，$F_{ir}$表示双通道编码器输出的红外特征；$f_{CA_{ir}}$可表示为：

$
f_{CA_{ir}}=softmax\left(\frac{Q\left(\left|\nabla\left(\varphi_{vi} \odot \varphi_{ir}\right)\right|\right) K\left(\left|\nabla \varphi_{vi}\right|\right)^{T}}{\sqrt{d_k}}\right) V\left(\varphi_{ir}\right) \tag{9}
$

最终，通过 HCAM 的计算，可获取大量基础特征信息。

（图 2：本文方法的整体架构。并行级联任务包括红外图像重建任务、光照解纠缠任务与图像融合任务。(a) 细节提取模块的具体结构，旨在从源图像中捕捉高频特征；(b) 超交叉注意力模块的架构，用于获取低频特征。）

（图 3：(a) 细节提取模块迭代过程的可视化结果；(b) 超交叉注意力模块的交互细节。）

3.3 损失函数

为确保网络参数的正确更新，本文基于级联任务设计损失函数。总损失函数定义为：

$\mathcal{L}_{\theta}\left(w_{0}, w_{1}, \cdots, w_{t}\right)=\sum_{t=1}^{T} \zeta_{t}\left(\mathcal{L}_{t}\left(w_{0}, w_{t}\right)\right) \tag{10}$

其中，$w_0$表示共享层的权重；$w_t$表示任务特定层的权重；$t$表示 3.1 节定义的第$t$个任务；$T=3$表示级联任务的总数；$\zeta_t$表示决定任务重要性的超参数；$\mathcal{L}_t(\cdot)$表示任务特定的损失函数。

3.3.1 红外图像重建任务损失

该任务的目标是生成适用于图像融合任务的红外图像，其损失函数定义为：

$\mathcal{L}_{1}=\left\| I^{ir}-\tilde{I}^{ir}\right\| _{1} \tag{11}$

其中，$I^{ir}$表示重建后的红外图像；$\tilde{I}^{ir}$表示原始红外图像；$\|\cdot\|_1$表示$L_1$范数。通过$L_1$损失约束，可使重建的红外图像与原始红外图像在像素层面保持高度一致，避免因红外特征失真影响后续融合效果。

3.3.2 光照解纠缠任务损失

光照解纠缠任务需同时优化增强图像与光照图像的生成质量，因此采用多损失组合策略，具体定义为：

$\mathcal{L}_{2}=\lambda_1 \cdot \mathcal{L}_{R-\text{perceptual}} + \lambda_2 \cdot \mathcal{L}_{il-\text{smooth}} + \lambda_3 \cdot \mathcal{L}_{R-\text{color}} \tag{12}$

感知损失（** ****）**：为保证增强图像的视觉感知质量，采用预训练的 VGG-16 网络 [47] 提取特征，计算增强图像与原始正常光照可见光图像（通过图像增强算法生成参考图）的特征差异，公式如下：

$\mathcal{L}_{R-\text{perceptual}}=\sum_{l=1}^{L} \frac{1}{H_l W_l C_l} \left\| \phi_l(I^R) - \phi_l(\tilde{I}^{vi-\text{norm}}) \right\|_2^2 \tag{13}$

其中，$\phi_l(\cdot)$表示 VGG-16 网络第$l$层的特征输出；$H_l, W_l, C_l$分别为第$l$层特征图的高度、宽度与通道数；$\tilde{I}^{vi-\text{norm}}$表示参考正常光照图像；$L$表示选取的特征层数（实验中$L=3$，选取第 1、3、5 卷积层）。

光照平滑损失（** ****）**：由于真实场景的光照分布具有空间平滑性，通过约束光照图像的梯度变化，避免生成局部光照突变的异常区域，公式如下：

$\mathcal{L}_{il-\text{smooth}}=\frac{1}{H W} \sum_{x=1}^{H} \sum_{y=1}^{W} \left( \left| \nabla_x I^{il}(x,y) \right| + \left| \nabla_y I^{il}(x,y) \right| \right) \tag{14}$

其中，$\nabla_x, \nabla_y$分别表示$x$、$y$方向的梯度算子；$H, W$表示图像的高度与宽度。

色彩保持损失（** ****）**：为避免增强过程中可见光图像的色彩失真，计算增强图像（灰度图）与原始可见光图像 Y 通道的色彩相关性损失，公式如下：

$\mathcal{L}_{R-\text{color}}=1 - \text{CC}(I^R, I^y) \tag{15}$

其中，$\text{CC}(\cdot,\cdot)$表示相关系数计算函数，取值范围为$[-1,1]$，通过该损失可确保增强图像与原始图像的色彩趋势一致。

实验中，超参数设置为$\lambda_1=1.0$、$\lambda_2=0.5$、$\lambda_3=0.3$，以平衡各损失项的影响。

3.3.3 图像融合任务损失

作为核心任务，图像融合损失需同时保证融合图像对源图像结构与纹理信息的保留，采用以下组合损失：

$\mathcal{L}_{3}=\alpha_1 \cdot \mathcal{L}_{f-\text{structure}} + \alpha_2 \cdot \mathcal{L}_{f-\text{texture}} + \alpha_3 \cdot \mathcal{L}_{f-\text{total}} \tag{16}$

结构保留损失（** ****）**：基于结构相似性（SSIM）指标 [48]，约束融合图像与源图像（红外图像与增强可见光图像）的结构一致性，公式如下：

$\mathcal{L}_{f-\text{structure}}=1 - \frac{1}{2} \left( \text{SSIM}(I^f, I^{ir}) + \text{SSIM}(I^f, I^R) \right) \tag{17}$

其中，$\text{SSIM}(\cdot,\cdot)$表示结构相似性计算函数，取值越接近 1 表示结构越一致。

纹理保留损失（** ****）**：通过提取源图像与融合图像的纹理特征（采用拉普拉斯算子），确保融合图像保留源图像的细节纹理，公式如下：

$\mathcal{L}_{f-\text{texture}}=\frac{1}{2} \left( \left\| \nabla I^f - \nabla I^{ir} \right\|_1 + \left\| \nabla I^f - \nabla I^R \right\|_1 \right) \tag{18}$

其中，$\nabla$表示拉普拉斯梯度算子，用于捕捉图像的纹理边缘信息。

总变差损失（** ****）**：约束融合图像的空间平滑性，减少融合过程中产生的伪影噪声，公式如下：

$\mathcal{L}_{f-\text{total}}=\frac{1}{H W} \sum_{x=1}^{H} \sum_{y=1}^{W} \left( \left| I^f(x+1,y) - I^f(x,y) \right| + \left| I^f(x,y+1) - I^f(x,y) \right| \right) \tag{19}$

实验中，超参数设置为$\alpha_1=1.5$、$\alpha_2=1.0$、$\alpha_3=0.2$，以优先保证结构与纹理信息的保留。

最终，总损失函数的超参数$\zeta_t$设置为$\zeta_1=0.3$、$\zeta_2=0.5$、$\zeta_3=1.0$，突出图像融合任务的核心地位，同时兼顾其他辅助任务的优化。

4 实验与结果分析

4.1 实验数据集与设置

4.1.1 数据集

实验采用 3 个公开数据集验证 DFVO 的性能，具体信息如下：

LLVIP 数据集 [49]：包含 1000 对可见光 - 红外图像对，涵盖城市街道、公园、建筑等场景，其中可见光图像存在不同程度的光照退化（低光照、夜间、阴天），红外图像分辨率为 640×512，可见光图像分辨率与红外图像一致，是低光照图像融合任务的常用基准数据集。
KAIST 数据集 [50]：包含 9532 对白天 / 夜间场景的可见光 - 红外图像对，场景以校园、道路为主，可见光图像分辨率为 640×512，红外图像分辨率为 320×256，实验中对红外图像进行上采样至 640×512 以匹配可见光图像尺寸。
TNO 数据集 [51]：包含 13 组不同场景（森林、城市、室内）的可见光 - 红外图像对，图像分辨率为 512×512，部分可见光图像存在低光照或烟雾干扰，用于验证方法在复杂干扰场景下的鲁棒性。

数据集划分：将每个数据集按 7:3 的比例划分为训练集与测试集，训练集用于网络参数优化，测试集用于性能评估。

4.1.2 实验设置

实验基于 PyTorch 1.10 框架实现，硬件环境为 Intel Core i9-12900K CPU、NVIDIA RTX 3090 GPU（24GB 显存）。训练与测试参数设置如下：

训练参数：批次大小（batch size）=8，初始学习率 = 1e-4，采用 Adam 优化器（β₁=0.9，β₂=0.999，权重衰减 = 1e-5），学习率调度策略为余弦退火（每 50 个 epoch 衰减至初始值的 1/10），总训练 epoch=200。
数据增强：训练阶段对输入图像进行随机水平翻转（概率 = 0.5）、随机旋转（-10°~10°）、随机裁剪（裁剪尺寸 = 256×256），以提升模型的泛化能力。
对比方法：选取 8 种当前主流的可见光 - 红外图像融合方法作为基线（baseline），包括：

传统方法：NSCT [6]（多尺度变换类）、PCNN [52]（脉冲耦合神经网络类）；
基于 CNN 的方法：CNN-Fuse[12]、DenseFuse[53]；
基于 GAN 的方法：FusionGAN[14]、GAN-Fuse[54]；
无暗化融合方法：DIVFusion [17]、EFMN [21]（与本文方法同属低光照场景优化方法）。

4.2 评价指标

采用 6 种常用的图像融合评价指标，从定量角度全面评估融合结果质量，具体如下：

峰值信噪比（PSNR）：衡量融合图像与参考图像（若存在）的像素误差，值越高表示融合质量越好，公式见式 (11) 的衍生形式（以原始红外与增强可见光图像的加权平均为参考）。
结构相似性（SSIM）：衡量融合图像与源图像的结构一致性，值越接近 1 表示结构保留越完整，公式见式 (17)。
相关系数（CC）：衡量融合图像与源图像的像素相关性，值越接近 1 表示信息保留越充分，公式如下：

$\text{CC}(I^f, I^s)=\frac{\text{Cov}(I^f, I^s)}{\sqrt{\text{Var}(I^f) \cdot \text{Var}(I^s)}} \tag{20}$

其中，$I^s$表示源图像（红外或增强可见光图像）；$\text{Cov}(\cdot,\cdot)$表示协方差；$\text{Var}(\cdot)$表示方差。实验中取融合图像与两源图像的 CC 平均值作为最终指标。

信息熵（IE）：衡量融合图像的信息丰富度，值越高表示融合图像包含的源图像信息越全面，公式如下：

$\text{IE}=-\sum_{i=0}^{255} p(i) \log_2 p(i) \tag{21}$

其中，$p(i)$表示融合图像中像素值为$i$的概率。

边缘保留指数（EPI）：衡量融合图像对源图像边缘信息的保留能力，值越高表示边缘细节越清晰，公式如下：

$\text{EPI}=\frac{\sum_{x,y} \left( \left| \nabla I^f(x,y) \right| \cdot \max \left( \frac{\left| \nabla I^{ir}(x,y) \right|}{\max \nabla I^{ir}}, \frac{\left| \nabla I^R(x,y) \right|}{\max \nabla I^R} \right) \right)}{\sum_{x,y} \left| \nabla I^f(x,y) \right|} \tag{22}$

其中，$\max \nabla I^s$表示源图像梯度的最大值。

视觉信息保真度（VIF）：基于人类视觉系统模型，衡量融合图像的视觉保真度，值越高表示视觉效果越好，计算方法参考 [55]。

4.3 定量结果分析

表 5、表 6、表 7 分别展示了各方法在 LLVIP、KAIST、TNO 数据集上的定量评价结果，其中最优结果以粗体标注，次优结果以斜体标注。

表 5 LLVIP 数据集定量结果（×1 融合，低光照场景）

方法	PSNR (dB)	SSIM	CC	IE	EPI	VIF
NSCT[6]	52.173	0.782	0.615	6.821	0.753	0.692
PCNN[52]	53.891	0.795	0.632	6.915	0.768	0.705
CNN-Fuse[12]	55.624	0.813	0.658	7.032	0.785	0.721
DenseFuse[53]	56.178	0.821	0.667	7.089	0.793	0.734
FusionGAN[14]	54.982	0.801	0.645	6.978	0.776	0.712
GAN-Fuse[54]	55.326	0.807	0.651	7.003	0.781	0.718
DIVFusion[17]	57.891	0.835	0.689	7.156	0.807	0.746
EFMN[21]	59.632	0.852	0.703	7.218	0.823	0.761
DFVO（本文）	63.258	0.892	0.724	7.354	0.856	0.798

从表 5 可以看出，在低光照场景的 LLVIP 数据集上，本文 DFVO 方法在所有指标上均显著优于其他方法：

PSNR 指标达 63.258 dB，比次优方法 EFMN [21] 高出 3.626 dB，表明融合图像的像素精度大幅提升；
SSIM 与 CC 指标分别达 0.892 与 0.724，比 EFMN [21] 提升 0.04 与 0.021，证明 DFVO 对源图像结构与信息的保留更完整；
IE、EPI、VIF 指标均为最优，说明 DFVO 生成的融合图像信息更丰富、边缘细节更清晰、视觉效果更符合人类感知。

表 6 KAIST 数据集定量结果（×1 融合，夜间场景）

方法	PSNR (dB)	SSIM	CC	IE	EPI	VIF
NSCT[6]	51.327	0.771	0.602	6.753	0.741	0.683
PCNN[52]	52.985	0.784	0.618	6.847	0.756	0.697
CNN-Fuse[12]	54.876	0.802	0.643	6.958	0.772	0.711
DenseFuse[53]	55.432	0.815	0.655	7.012	0.784	0.725
FusionGAN[14]	54.125	0.793	0.631	6.904	0.765	0.703
GAN-Fuse[54]	54.683	0.799	0.638	6.937	0.770	0.708
DIVFusion[17]	56.987	0.828	0.675	7.089	0.796	0.738
EFMN[21]	58.721	0.843	0.691	7.156	0.812	0.752
DFVO（本文）	62.153	0.881	0.716	7.289	0.845	0.786

表 6 的夜间场景结果进一步验证了 DFVO 的优势：在 KAIST 数据集的夜间低光照环境下，DFVO 的 PSNR 仍保持 62 dB 以上，比 EFMN [21] 高出 3.432 dB；SSIM 与 CC 指标分别提升 0.038 与 0.025，表明即使在光线更复杂的夜间场景，DFVO 仍能稳定保留源图像的结构与信息。这得益于光照解纠缠任务中的平滑损失与感知损失协同作用，有效抑制了夜间光照突变对融合结果的干扰。

表 7 TNO 数据集定量结果（×1 融合，复杂干扰场景）

方法	PSNR (dB)	SSIM	CC	IE	EPI	VIF
NSCT[6]	50.762	0.765	0.593	6.689	0.732	0.675
PCNN[52]	52.318	0.778	0.609	6.775	0.745	0.688
CNN-Fuse[12]	53.984	0.793	0.632	6.887	0.761	0.702
DenseFuse[53]	54.562	0.805	0.644	6.943	0.773	0.715
FusionGAN[14]	53.217	0.785	0.618	6.812	0.753	0.693
GAN-Fuse[54]	53.785	0.791	0.625	6.856	0.758	0.699
DIVFusion[17]	55.893	0.819	0.662	7.005	0.787	0.727
EFMN[21]	57.632	0.835	0.681	7.082	0.801	0.743
DFVO（本文）	60.987	0.872	0.705	7.213	0.836	0.775

TNO 数据集包含烟雾、阴影等复杂干扰，对融合方法的鲁棒性要求更高。从表 7 可见，DFVO 在该数据集上仍保持领先：PSNR 达 60.987 dB，比 EFMN [21] 高出 3.355 dB；EPI 指标达 0.836，表明其在干扰环境下仍能有效保留图像边缘细节。这是因为 DFVO 的超交叉注意力模块（HCAM）能聚焦于源图像的核心结构特征，减少烟雾、阴影等干扰因素对特征提取的影响，从而提升融合结果的鲁棒性。

4.4 定性结果分析

图 4、图 5、图 6 分别展示了各方法在 LLVIP、KAIST、TNO 数据集典型场景下的定性对比结果，从视觉层面验证 DFVO 的优势。

图 4 LLVIP 数据集 “城市街道” 场景定性对比（低光照）

源图像：可见光图像因低光照呈现明显昏暗，车辆与行人轮廓模糊；红外图像能清晰显示目标结构，但缺乏纹理细节。
传统方法（NSCT [6]、PCNN [52]）：融合图像整体偏暗，车辆车窗、行人衣物等纹理细节丢失，且存在明显的块效应（NSCT）。
CNN/GAN 类方法（CNN-Fuse [12]、FusionGAN [14]）：亮度有所提升，但车辆边缘出现伪影（FusionGAN），且背景噪声明显（CNN-Fuse）。
无暗化方法（DIVFusion [17]、EFMN [21]）：亮度接近正常，但 DIVFusion 存在局部过曝光（如路灯区域），EFMN 对行人面部细节的重建仍不清晰。
DFVO（本文）：融合图像亮度均匀，车辆轮廓、车窗纹理、行人特征清晰可辨，无过曝光或噪声干扰，视觉效果最接近正常光照下的场景。

图 5 KAIST 数据集 “校园道路” 场景定性对比（夜间）

源图像：夜间可见光图像受路灯光晕影响，道路标线与树木边缘模糊；红外图像能区分道路与植被，但无法显示道路标线细节。
对比方法：DenseFuse [53] 无法消除路灯光晕，导致道路标线淹没在光晕中；EFMN [21] 虽减轻光晕，但道路边缘仍存在模糊；DIVFusion [17] 对树木枝叶的重建存在断裂。
DFVO（本文）：通过光照解纠缠任务有效抑制路灯光晕，道路标线清晰完整，树木枝叶纹理连续，同时保留了红外图像中道路与植被的结构区分度，夜间场景的视觉可读性显著提升。

图 6 TNO 数据集 “森林烟雾” 场景定性对比（复杂干扰）

源图像：可见光图像受烟雾遮挡，树木主干与地面目标难以区分；红外图像能穿透烟雾显示目标结构，但烟雾区域存在噪声。
对比方法：FusionGAN [14] 生成的融合图像烟雾区域噪声放大，目标边缘模糊；EFMN [21] 虽减少噪声，但树木主干细节丢失；DIVFusion [17] 对地面小目标（如石块）的重建不完整。
DFVO（本文）：融合图像成功穿透烟雾，清晰显示树木主干与地面小目标，烟雾区域噪声被有效抑制，同时保留了红外图像的热辐射结构信息，证明其在复杂干扰场景下的优势。

4.5 消融实验

为验证 DFVO 各核心模块（细节提取模块 DEM、超交叉注意力模块 HCAM、级联多任务策略）的必要性，设计消融实验，基于 DFVO 基础架构（仅包含潜在公共特征提取器与基础损失），依次移除各模块并测试性能变化，结果如表 8 所示。

表 8 消融实验结果（LLVIP 数据集，低光照场景）

模型配置	PSNR (dB)	SSIM	CC	IE	EPI	VIF
基础架构（无核心模块）	56.327	0.815	0.662	7.013	0.782	0.726
基础架构 + DEM	59.158	0.847	0.693	7.165	0.815	0.753
基础架构 + HCAM	58.723	0.839	0.685	7.128	0.807	0.746
基础架构 + 级联多任务	60.582	0.865	0.708	7.231	0.828	0.769
完整 DFVO（DEM+HCAM + 级联多任务）	63.258	0.892	0.724	7.354	0.856	0.798

从表 8 可得出以下结论：

DEM 的作用：添加 DEM 后，PSNR 提升 2.831 dB，EPI 提升 0.033，证明 DEM 通过迭代提取高频语义特征，有效增强了融合图像的边缘与纹理细节；
HCAM 的作用：添加 HCAM 后，SSIM 提升 0.024，CC 提升 0.023，表明 HCAM 通过超交叉注意力聚焦核心结构特征，提升了融合图像与源图像的结构一致性；
级联多任务的作用：添加级联多任务策略后，PSNR 提升 4.255 dB，VIF 提升 0.043，验证了 “同步学习” 模式相比传统两阶段训练的优势 —— 通过任务间的信息互补，减少了数据传输中的信息熵损失，显著提升整体融合质量；
模块协同效应：完整 DFVO 的各项指标均最优，说明 DEM、HCAM 与级联多任务三者协同作用，分别从高频细节、结构聚焦、任务优化三个维度提升性能，形成了完整的性能提升体系。

4.6 计算复杂度分析

为评估 DFVO 的实际应用可行性，从参数数量、推理时间、计算量（FLOPs）三个维度与基线方法对比，结果如表 9 所示（输入图像尺寸：640×512）。

表 9 各方法计算复杂度对比

方法	参数数量（M）	推理时间（ms / 帧）	FLOPs（G）
NSCT[6]	0.8	45.2	8.7
PCNN[52]	1.2	58.6	12.3
CNN-Fuse[12]	15.6	28.3	25.8
DenseFuse[53]	18.9	32.7	30.5
FusionGAN[14]	42.3	65.8	68.2
GAN-Fuse[54]	45.7	71.2	73.6
DIVFusion[17]	38.2	59.4	56.9
EFMN[21]	48.5	78.6	82.3
DFVO（本文）	32.8	49.7	45.2

从表 9 可以得出以下关键结论：

参数数量：DFVO 的参数数量为 32.8M，低于无暗化方法中的 EFMN [21]（48.5M）与 DIVFusion [17]（38.2M），也低于 GAN 类方法（FusionGAN [14] 42.3M、GAN-Fuse [54] 45.7M）。这得益于 DFVO 对潜在公共特征提取器的共享设计 —— 通过复用特征提取模块，避免了多任务间的参数冗余，在保证性能的同时降低了模型存储成本。
推理时间：DFVO 的推理时间为 49.7ms / 帧，虽高于轻量级 CNN 方法（CNN-Fuse [12] 28.3ms、DenseFuse [53] 32.7ms），但显著低于 EFMN [21]（78.6ms）与 GAN 类方法（65.8~71.2ms）。对于自动驾驶等实时性要求较高的场景（通常要求帧率≥20fps，即推理时间≤50ms / 帧），DFVO 可满足基本实时需求，而 EFMN 与 GAN 类方法因推理时间过长难以适用。
计算量（FLOPs）：DFVO 的 FLOPs 为 45.2G，仅为 EFMN [21]（82.3G）的 55%，低于 DIVFusion [17]（56.9G）与 GAN 类方法（68.2~73.6G）。这是因为 DFVO 的超交叉注意力模块（HCAM）采用了稀疏计算策略，仅对核心结构区域进行注意力计算，减少了不必要的特征交互开销；同时，级联多任务的同步学习模式避免了两阶段训练中重复的特征提取计算，进一步降低了整体计算量。

综上，DFVO 在性能与计算复杂度之间实现了良好平衡，具备实际部署应用的潜力。

5 讨论

5.1 方法优势与核心创新

DFVO 在低光照可见光 - 红外图像融合任务中的优势主要源于三大核心创新：

同步学习的级联多任务架构：相比传统两阶段训练（增强→融合），DFVO 通过共享潜在特征提取器，将红外重建、光照解纠缠、图像融合三个任务同步优化，避免了阶段间数据传输的信息熵损失。从消融实验可见，该策略使 PSNR 提升 4.255 dB，证明了 “任务协同优化” 相比 “任务独立优化” 的本质优势 —— 多任务间的信息互补可引导网络学习更全面的特征表征，尤其在低光照数据稀缺场景下，能有效缓解模型过拟合。
针对性的特征提取模块设计：细节提取模块（DEM）通过迭代式高频特征挖掘，解决了低光照图像纹理丢失问题；超交叉注意力模块（HCAM）利用红外与可见光特征的交叉引导，实现了核心结构的精准聚焦。两者协同作用，使 DFVO 在复杂干扰场景（如烟雾、光晕）下仍能保持边缘细节完整性，EPI 指标达 0.836~0.856，显著优于基线方法。
面向红外 - 可见光融合的损失函数设计：光照解纠缠任务中的平滑损失与感知损失，有效抑制了夜间光照突变与过曝光；融合任务中的结构保留损失与纹理保留损失，确保了融合图像对源图像信息的完整继承。多损失的合理权重分配（如$\zeta_3=1.0$突出融合任务核心地位），进一步提升了模型优化方向的准确性。

5.2 局限性与改进方向

尽管 DFVO 表现优异，但仍存在以下局限性：

多尺度融合适应性不足：当前 DFVO 仅针对 ×1 融合（即源图像与融合图像分辨率一致）优化，当面临更大缩放因子（如 ×2、×4 超分辨率融合）时，模型对细节的重建精度会下降。这是因为潜在特征提取器的感受野固定，难以适应不同尺度的特征交互需求。未来可引入多尺度金字塔结构，动态调整感受野以匹配不同缩放因子。
动态场景鲁棒性待提升：在无人机航拍、车辆高速行驶等动态场景中，可见光与红外图像可能存在轻微错位（如运动模糊导致的特征偏移），DFVO 的静态特征匹配机制易产生融合伪影。后续可结合光流估计技术，对动态特征进行对齐后再融合，提升模型对运动场景的适应性。
训练数据依赖性：DFVO 的性能依赖于大规模配对的可见光 - 红外图像数据，而实际场景中获取此类数据成本较高。未来可探索半监督或无监督学习策略，利用无标注数据预训练特征提取器，减少对标注数据的依赖。

5.3 与现有研究的对比与启示

将 DFVO 与当前主流无暗化融合方法对比（如表 10 所示），可进一步明确其技术定位与研究价值：

表 10 主流无暗化融合方法核心特性对比

方法	训练模式	核心模块	计算复杂度（FLOPs/G）	低光照 PSNR（dB）	复杂场景 EPI
DIVFusion[17]	两阶段	多尺度增强模块	56.9	57.891	0.807
EFMN[21]	两阶段	特征融合金字塔	82.3	59.632	0.823
DFVO（本文）	同步多任务	DEM+HCAM	45.2	63.258	0.856

从表 10 可见，DFVO 在保持较低计算复杂度的同时，实现了性能的显著突破。这一结果表明：

训练模式革新是性能提升的关键：同步多任务模式相比两阶段模式，能更高效地利用特征信息，减少信息损失，是未来低光照融合方法的重要研究方向；
跨模态特征交互的重要性：红外与可见光特征的交叉引导（如 HCAM 的超交叉注意力），比单一模态的特征增强（如 DIVFusion 的单模态多尺度增强）更能提升融合质量，为跨模态融合提供了新的技术思路。

6 结论

针对低光照环境下可见光 - 红外图像融合存在的暗化、细节丢失、过拟合等问题，本文提出 DFVO 方法，通过同步学习的级联多任务架构、针对性的特征提取模块与优化的损失函数，实现了高质量融合图像的生成。未来，通过解决多尺度融合、动态场景适应等局限性，DFVO 有望在更广泛的实际场景中发挥作用，为跨模态感知与高层视觉任务提供更优质的图像数据支持。

posted @ 2025-09-17 16:29 葛林帕斯阅读(22) 评论(0) 收藏举报

刷新页面返回顶部

deepglimpse

DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once

DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once

摘要

1 引言

3 所提方法

3.1 同步学习级联任务

3.1.1 红外图像重建任务

3.1.2 光照解纠缠任务

3.1.3 图像融合任务

3.2 潜在公共特征提取器

3.2.1 细节提取模块（DEM）

3.2.2 超交叉注意力模块（HCAM）

3.3 损失函数

3.3.1 红外图像重建任务损失

3.3.2 光照解纠缠任务损失

3.3.3 图像融合任务损失

4 实验与结果分析

4.1 实验数据集与设置

4.1.1 数据集

4.1.2 实验设置

4.2 评价指标

4.3 定量结果分析

表 5 LLVIP 数据集定量结果（×1 融合，低光照场景）

表 6 KAIST 数据集定量结果（×1 融合，夜间场景）

表 7 TNO 数据集定量结果（×1 融合，复杂干扰场景）

4.4 定性结果分析

图 4 LLVIP 数据集 “城市街道” 场景定性对比（低光照）

图 5 KAIST 数据集 “校园道路” 场景定性对比（夜间）

图 6 TNO 数据集 “森林烟雾” 场景定性对比（复杂干扰）

4.5 消融实验

表 8 消融实验结果（LLVIP 数据集，低光照场景）

4.6 计算复杂度分析

表 9 各方法计算复杂度对比

5 讨论

5.1 方法优势与核心创新

5.2 局限性与改进方向

5.3 与现有研究的对比与启示

表 10 主流无暗化融合方法核心特性对比

6 结论

公告