2024CVPR_Low-light Image Enhancement via CLIP-Fourier Guided Wavelet Diffusion(CFWD)

一、Motivation

1、单模态监督问题:大多数方法往往只考虑从图像层面监督增强过程,而忽略了图像的详细重建和多模态语义对特征空间的指导作用。这种单模态监督导致不确定区域的次优重建和较差的局部结构,导致视觉结果不理想的出现。------》扩散模型缺乏有效性约束,容易出现多种生成效应

2、简单的引入CLIP问题:因为图像损坏给特征对齐带来了困难,导致视觉语言模型无法有效地捕获退化图像和语义之间的细粒度差距,所以简单地引入视觉语言信息并不能获得显著的性能

二、Contribution

1、网络结构:CLIP-Fourier Guided Wavelet Diffusion (CFWD). 将多模态引入到扩散模型中用于低光图像增强

2、多模态监督:首次将频域空间与多模态相结合,设计了多层次视觉语言导引网络------> 解决多模态特征对齐问题

3、高频混合空间:小波变换与傅里叶变换的有效结合,构建了具有高频混合空间,对扩散模型生成多样性的有效约束

 

三、Network

 

 1. 前向加噪过程:首先将正常光照图像IH通过离散小波变换(DWT会进行下采样操作)得到AHK,分辨率变为原来的1/4.

K-DWT: 大佬链接:https://blog.csdn.net/qq_43426078/article/details/124130531

                       

 先将正常光照图像经过K-DWT(离散小波变换)产生1/4尺寸的低频域,之后前向加噪声

 2. 反向去噪过程:

首先将低光照图像经过K-DWT(离散小波变换)产生1/4尺寸的低频域 + T时刻的噪声  产生 预测的粗糙的增强图像

 没懂Inverse Inference过程为什么会产生多个样本

 

 

损失:

1. 扩散损失: 用于前向过程用于优化扩散模型的噪声预测(小波低频域进行并最小化它们的L2距离)

 2.视觉语言指导损失:

(1)余弦相似度损失   :文本编码器   :图像编码器

 

     

 

 3. 频谱损失:利用L1损耗最小化正常和弱光图像高频信息谱图之间的信息差异

 

 4. 内容损失:使用MSE和SSIM损失约束最终增强后图像和Ground Truth的差异最小化

 

 

四、Experiments

posted @ 2024-05-08 14:06  helloWorldhelloWorld  阅读(1362)  评论(0)    收藏  举报