Recorrupted-to-Recorrupted: R2R无监督去噪方法
简介
一篇介绍 "Recorrupted-to-Recorrupted: Unsupervised Deep Learning for Image Denoising" 论文的博客,这是2021年CVPR的会议论文。
本文主要是在 Noise2Noise (N2N) 去噪方法的启发之下,提出了一种更加适合应用的无监督式的去噪方法 Recorrupted2Recorrupted (R2R),只需要一张原始含噪声图像即可完成去噪工作。
回顾N2N
N2N是最早提出使用无监督方法(自监督)进行去噪的工作,它需要对同一场景进行两次不同的采集,以获得两幅噪声独立的两张图片 \(y_1=x+n_1\) 和 \(y_2=x+n_2\) ,其中 \(n_1 \sim \mathcal{N}(0, \sigma_1 \mathbf{I}), n_2 \sim \mathcal{N}(0, \sigma_2 \mathbf{I})\) 相互独立。在此基础上,可以证明如果模型学习到了这两幅图像间的映射关系\(y_1 \rightarrow y_2\),等价于学习\(y_1\)到\(x\)之间的映射关系。
p.s. 文中各处表示图像的变量均为向量(由矩阵展开得到)
N2N的理论证明过程
当网络在图像对\(\{y_1, y_2\}\)上进行训练时,训练目标为:
注意到其中的目标函数满足
由于噪声\(n_1\)与\(n_2\)独立,上式中 \(\mathbb{E}_{\boldsymbol{n}_1, \boldsymbol{n}_2}\left\{\left(\boldsymbol{n}_2\right)^{\top} \mathcal{F}_{\boldsymbol{\theta}}(\boldsymbol{y}_1)\right\}=0\),从而能够得到:
即在噪声独立的、相同场景的图片对 \(\{y_1, y_2\}\) 上训练模型,学习到的模型能够对噪声图片\(y_1\)进行去噪,等价于学习到了\(y_1\)到真实场景图像\(x\)之间的映射关系。
N2N的不足
- 在采集图像时需要针对同一场景进行两次采集,并不适合大部分去噪的图像数据
R2R
本文提出使用一个控制噪声的矩阵\(D\)和一个加性白噪声 \(\boldsymbol{z}\) 来对单幅含噪声图像 \(\boldsymbol y=\boldsymbol x+\boldsymbol n\) 进行破坏,从而得到一对破坏图像 \(y_1=x+n+Az, y_2=x+n-Bz\) ,其中矩阵 \(A, B\) 满足一定限制条件(后续说明)。
接下来,本文在 \(y_1, y_2\) 构成的破坏图像对上训练模型
事实上,我们可以证明,当矩阵 \(A, B\) 满足 \(A\times B=\Sigma\) 时,破坏图像对中的噪声对 \(\{ n+Az, n-Bz \}\) 相互独立,其中 \(\Sigma\) 是原始图像中噪声 \(n\) 的协方差矩阵,即 \(n \sim \mathcal{N}(0, \Sigma)\)。
于是与N2N的证明类似,模型学习y1到y2之间的映射关系,在统计意义上等价于y1到x之间的映射关系。
噪声估计
看到这里,我不禁有一个疑问,在实际数据集上进行模型训练时,原始图像中的噪声分布我们可能并不知道的(尤其是噪声的协方差矩阵),在这种情况下我们应该如何确定合适的矩阵 \(A, B\) 使得它们满足上述条件呢?
在作者开源的代码仓库中我找到了答案:

省流版
简单来说,作者分两种情况讨论了实际图像中的噪声估计方法:
- 加性高斯白噪声 (AWGN):此时可以认为 \(n\sim\mathcal{N}(0, \sigma^2 \boldsymbol I)\),于是作者采用了 \(A=\frac{1}{2}\sigma\boldsymbol I, B=2\sigma \boldsymbol I\)来按照上述策略进行训练,其中高斯噪声的协方差 \(\sigma\) 应该也是要通过对图像的估计来进行的;
- 泊松高斯混合噪声:在实际采集的图像中,可以认为主要的噪声来源是泊松噪声和高斯噪声。文章采用 heteroscedastic signal dependent Gaussian 对泊松高斯混合噪声进行建模,将泊松分布 \(n_p \sim \pi(\lambda)\) 近似表示为 \(n_p \sim \mathcal N(\lambda, \lambda)\),于是混合噪声 \(n \sim \pi(\lambda)+\mathcal N(0, \beta_2)\sim \mathcal N(\lambda, \lambda)+\mathcal N(0, \beta_2) \sim \lambda+\mathcal N(\lambda + \beta_2)\),其中 \(\lambda\) 就是理想的纯净图像强度。
实际图像中, \(\lambda\) 与图像强度直接还存在一个线性缩放因子 \(\beta_1\) ,虽然噪声 \(n\) 的协方差矩阵无法直接获得,但参数 \(\beta_1, \beta_2\)可以通过图像估计得到。
于是便可以据此估计出协方差矩阵 \(\Sigma=diag(\beta_1 x+\beta_2)\) 矩阵,从而找到满足条件的矩阵 \(A, B\)。
在这里,泊松高斯混合噪声是对真实成像过程的模拟:
- 泊松噪声:由于传感器接收到的信号强度是对光子到达的计数,而对光子进行计数是一个典型的服从泊松分布的随机过程,因此传感器成像的过程会自然地引入泊松噪声
- 高斯噪声:在成像过程中由于器件的热噪声、量化导致的噪声等等累计作用产生的噪声可以近似认为服从高斯分布,即会含有高斯噪声
总结
- 相比于 N2N 方法,R2R 可以针对单张图像进行自监督的去噪工作,减轻了在前端采集时的任务需求;
- 代价是需要对采集图像的噪声水平进行估计(较少的参数)。
浙公网安备 33010602011771号