NOISEDIFFUSION: 改进基于扩散模型的球面线性插值

Motivation :
1.改进自然图像的插值质量:现有的图像插值方法,尤其是那些基于扩散模型的方法,通常在处理非模型生成的自然图像时遇到困难。这些方法往往不能有效地处理自然图像中的复杂和多样的噪声分布,导致插值结果不自然或有明显的图像伪影。
2.处理编码噪声的无效性:在图像插值过程中,图像首先被编码到一个噪声空间,然后通过去噪技术恢复。然而,如果编码的噪声不符合预期的噪声分布(例如正态分布),这个基础假设的破坏会导致插值过程中的问题,比如图像质量下降或者细节丢失。
3.提高信噪比和减少信息损失:传统方法在引入噪声以匹配预期分布的过程中,可能会降低图像的信噪比,从而损失重要的图像信息。NoiseDiffusion方法通过在噪声图像空间进行插值,并将原始图像数据注入到噪声图像中,旨在解决这一信息损失问题。

在DDIM中 其实还有两个小点 :重建与插值 不过 DDIM中的插值是对由扩散模型生成之后的图像做的插值 然而,当将其扩展到自然图像时,插值结果的质量可能未达到预期,并且经常引入伪影 也就是论文中的Figure1的中间的生成效果

作者认为 产生不优的结果的原因是编码噪声不遵守预期的正态分布并可能包含高于或低于去噪阈值的噪声成分,导致最终插值图像中出现伪影。

根据图3中展示的结果,我们观察到,添加与去噪水平匹配的高斯噪声可以产生高质量的图像。然而,当噪声水平超过去噪阈值时,生成的图像中会引入额外的伪影。相反,当噪声水平低于去噪阈值时,结果图像看起来有些模糊,伴随着明显的特征丢失。

随后作者提出了定理1 并基于定理一 将球面线性图像插值的失败归咎于噪声水平和去噪阈值之间的不匹配。自然图像包含了模型之前未曾遇到的许多特征。因此,潜在变量不遵循预期的正态分布,并可能包含高于或低于去噪阈值的噪声成分,导致去噪后图像质量低下。

一种直观的方式是直接向图像中添加与预定去噪阈值匹配的高斯噪声。这样做可以确保图像的噪声水平适合模型的处理能力,从而在去噪时保持图像质量。

4.3介绍了一种结合了SDEdit的图像插值方法。当给定两幅图像时,该方法首先在同一水平上为它们每一幅添加高斯噪声。接下来,我们使用球面线性插值,并随后进行去噪处理。

但是由于这种图像插值方法基于SDEdit,它不可避免地继承了SDEdit方法的缺点,如图4所示。

图4中呈现的插值结果表明,该方法可以处理图像质量差的问题。然而,当我们添加更多高斯噪声并去噪时,插值的图像在保持原始风格的同时,表现出类似于直接图像叠加的现象。相反,选择较少的高斯噪声并去噪,虽然确保了图像的真实性,但引入了额外信息,最终导致插值失败。

所以 作者提出了noise diffusion :给定两幅图像,我们首先通过将它们编码到潜在空间并剪切以抑制极端值的噪声来开始,然后我们将潜在变量与高斯噪声结合,并且结合这些与原始图像,最后应用剪切和去噪来产生插值结果

剪切的方法则是使用了68-95-99.7规则
如果像素值大于边界值,则设为边界值。
如果像素值小于负边界值,则设为负边界值。
否则,保持像素值不变。

随后作者证明了球面线性插值和引入噪音的线性插值其实是noisediffusion的一种特殊情况

最后实验部分介绍了几种参数的影响 以及在什么时候做边界控制

总的来说 提出了一种新的方法 该方法克服了球面线性插值的局限性。该方法建立了一个统一框架,结合了球面线性插值和直接引入噪声用于插值的方法的优点。此外,通过对噪声施加边界控制并补充原始图像信息,有效地应对了噪声水平超出或低于去噪阈值所带来的挑战。通过对潜在变量的修正,实现了更优的插值效果。

posted @ 2024-05-02 16:03  zhaihaotian  阅读(7)  评论(0编辑  收藏  举报