读论文：Deep Learning for Image Super-resolution: A Survey

Abstract 摘要

Image Super-Resolution（SR）：图像超分辨率

用来提高图像或者视频的分辨率的重要的图像处理技术。

本文主要研究深度学习在图像超分辨率中的应用。

现有SR技术分类：有监督、无监督、领域特异性SR

1 Introduction

图像超分SR问题定义：从给定的低分辨率图像（low-resolution images，LR）还原它的高分辨率图像（HR）的过程。是计算机视觉领域和图像处理领域的重要技术。

应用： 医学成像、监控和安全领域。还可以改善其他计算机视觉任务

研究历史：从早期基于卷积神经网络(CNN)的方法(例如，SRCNN)最近有前途的SR方法使用生成对抗网(GAN)(如SRGAN)。

区别、创新点处：一般来说，使用深度学习技术的SR算法家族在以下几个主要方面有所不同：不同类型的网络架构、不同类型的损失函数、不同类型的学习原则和策略。

**基于深度学习的视角回顾SR技术的发展 **

本文主要的贡献：

我们对基于深度学习的图像超分辨率技术进行了全面的回顾，包括问题设置、基准数据集、性能指标、基于深度学习的SR方法家族、特定领域的SR应用等。
我们以层次和结构的方式系统地概述了基于深度学习的SR技术的最新进展，并总结了每个组件对于有效的SR解决方案的优点和局限性。
我们讨论了这些挑战和开放的问题，并确定了新的趋势和未来的发展方向，为社区提供了一个深刻的指导。

　　在下面的章节中，我们将介绍在深度学习中图像超分辨率的最新进展的各个方面。图1显示了本次调查中将以层次结构的方式覆盖的图像SR的分类。第2节给出了问题的定义，并回顾了主流数据集和评估指标。第3节模块化地分析了监督SR的主要成分。第4节简要介绍了无监督的SR方法。第5节介绍了一些流行的特定于领域的SR应用程序，第6节还讨论了未来的发展方向和开放的问题。

2 问题设置和术语

Problem setting and terminology

2.1 问题定义

问题定义：图像超分SR目的是从相应的低分辨率图像LR中恢复相应的高分辨率图像HR。

低分辨率图像LR的退化表示：

\[I_x = D(I_y, \delta) \]

其中，$D$ 为退化映射函数，$I_y$ 为相应的HR图像，$\delta$ 为退化过程的参数

盲超分SR问题定义：

通常退化过程是未知的（即$D$ 和 $\delta$ ），并且只提供LR图像，这种情况也被称为盲超分(blind SR).

研究人员需要从LR图像 $I_x$ 中恢复一个接近真实HR图像 $I_y$ 的高分辨图像HR $\hat{I_y}$ :

\[\hat{I_y} = F(I_x; \theta) \]

　　其中，F为超分模型，$\theta$ 为超分模型F的参数。

　　即使退化过程是未知的并且能够别多种因素影响（比如，压缩伪影、各向异性退化、传感器噪声和散斑噪声），研究人员正在尝试对退化映射建模。

大多数工作都直接将退化建模为一个单一的降采样操作，如下所示：

\[D(I_y; \delta) = (I_y) \downarrow_s,{s}\subset \delta \]

其中，$\downarrow_s$ 是步长为 $s$ 的下采样操作

　　事实上，大多数通用SR的数据集都是基于这个模式构建的，而最常用的降采样操作是具有抗锯齿的双边插值。然而，还有其他一些工作，将退化建模为几种操作的组合：

\[D(I_y; \delta) = (I_y \otimes k) \downarrow_s + n_\varsigma,\{k, s, \varsigma \} \subset \delta \]

　　其中，$ (I_y \otimes k) \downarrow_s$ 表示用HR图像和模糊核$k$ (Blur Kernel),$n_\varsigma$表示标准差为$\varsigma$的加性高斯白噪声(Additive White Gaussian Noise).

　　最基本的噪声与干扰模型AWGN：AWGN又称加性高斯白噪声(Additive White Gaussian Noise)，是最基本的噪声与干扰模型。它的幅度分布服从高斯分布，而功率谱密度是均匀分布的，它意味着除了加性高斯白噪声外，r(t)与s(t)没有任何失真。即H(f)失真的。

　　与等式的朴素定义相比、组合的退化模式更接近真实世界的情况，并已被证明对SR更有益。

为此，SR的目标如下：

\[\hat{\theta} = arg minL(\hat{I_y}, I_y) + \lambda \phi(\theta) \]

其中，$L(\hat{I_y}, I_y)$ 表示 生成HR图像$\hat{I_y}$ 与 真实图像$I_y$ 的损失函数，

$Φ(θ)$ 为正则化项，$\lambda$ 为平衡参数

　　虽然最流行的SR损失函数是像素级的均方误差（例如，像素损失），更强大的模型倾向于使用多个损失函数的组合，3.4.1会讲。

2.2 SR数据集

今天有各种各样的数据集可用于图像超分辨率，它们在图像数量、质量、分辨率和多样性等方面有很大的差异。

其中一些提供LR-HR图像对，而另一些则只提供HR图像，在这种情况下（指成对的数据集），LR图像通常是通过MATLAB中默认设置的不调整函数获得的（即带有抗锯齿的双边插值）。

在表1中，我们列出了一些SR社区常用的图像数据集，具体表示他们的HR图像数量、平均分辨率、平均像素数、图像格式和类别关键字。

数据集	数量	平均分辨率	平均像素数	格式	类别关键字
BSDS300	300	(435, 367)	154,401	JPG	动物、建筑、食物、景观、人、植物等
BSDS500	500	(432, 370)	154,401	JPG	动物、建筑、食物、景观、人、植物等
DIV2K	1000	(1972, 1437)	2, 793, 250	PNG	环境、动植物、手工制品、人、风景等
General-100	100	(435, 381)	181, 108	BMP	动物、日常需要品、食物、人、植物、质地等
L20	20	(3843, 2870)	11, 577, 492	PNG	动物、建筑、景观、人、植物等。
Manga109	109	(826, 1169)	966, 011	PNG	漫画
OutdoorScene	10624	(553, 440)	249, 593	PNG	动物，建筑，草，山，植物，天空，水
PIRM	200	(617, 482)	292, 021	PNG	环境、植物群、自然风光、物品、人等。
Set5	5	(313, 336)	113, 491	PNG	婴儿，鸟，蝴蝶，头，女人
Set14	14	(492, 446)	230, 203	PNG	人、动物、昆虫、花、蔬菜、漫画、幻灯片等。
T91	91	(264, 204)	58, 853	PNG	汽车、花、水果、人脸等。
Urban100	100	(984, 797)	774, 314	PNG	建筑、城市、结构、城市等。

除了这些数据集外，一些广泛用于其他视觉任务的数据集也被用于SR，如ImageNet[51]、MS-COCO[52]、VOC2012[53]、CelebA[54]。此外，结合多个数据集进行训练也很受欢迎，如结合T91和BSDS300[26]、[27]，[55]、[56]，结合DIV2K和Flickr2K[31]，[57]。

用到的时候到论文里找

2.3 图像质量评估

Image Quality Assessment， IQA

图像质量是指图像的视觉属性，侧重于对观众的感知评估。

　　一般来说，图像质量评估(IQA)方法包括基于人类感知的主观方法（即图像看起来的真实程度）和客观的计算方法。前者更符合我们的需要，但往往是耗时和昂贵的，因此后者是目前的主流。

　　然而，这些方法之间不一定一致，因为客观方法往往不能非常准确地捕捉人类的视觉感知，这可能导致IQA结果的较大差异。

　　此外，客观IQA方法进一步分为三种类型[58]：使用参考图像进行评估的全参考方法，基于提取特征比较的简化参考方法，以及无任何参考图像的无参考方法(即盲IQA)。接下来，我们将介绍几种最常用的IQA方法，包括主观方法和客观方法。

2.3.1 峰值信噪比

Peak Signal-to-Noise Ratio，PSNR

　　峰值信噪比(PSNR)是有损变换（如图像压缩、图像嵌入绘制）中最常用的重建质量测量方法之一。对于图像的超分辨率来说，PSNR是通过图像之间的最大像素值(记为L)和均方误差(MSE)来定义的。

　　给定有$N$ 个像素的真实图像 $I$ 和重建图像$\hat I$ ,$I$ 和$\hat I$ 之间的 $PSNR$ 定义如下：

PSNR

　　其中，L等于255，在一般情况下使用8位表示。由于PSNR只与像素级MSE相关，只关注对应像素之间的差异而不是视觉感知，这往往导致在真实场景中表示重建质量的表现不佳，而我们通常更关注人类的感知。然而，由于需要与文献作品进行比较，且缺乏完全准确的感知指标，PSNR仍然是目前SR模型中使用最广泛的评价标准。

2.3.2 结构相似性

Structural Similarity，SS

结构相似性指数，SSIM，structural similarity index

　　考虑到人类视觉系统(HVS)高度适合于提取图像结构[59]，基于亮度、对比度和结构方面的独立比较，提出了结构相似度指数(SSIM)[58]来度量图像之间的结构相似度。

对于具有N个像素的图像I，亮度 $\mu_I$ 和对比度 $\sigma_I$ 分别估计为图像强度的平均值和标准差,即

sigma
式中，$I(i)$ 表示图像 I 的第 i 个像素的强度，其亮度和对比度的比较，分别记为Cl(I，Iˆ)和Cc(I，Iˆ)，分别为

　　其中，$C_1 = (k_1L)^2$ ，$C_2 = (k_2L)^2$ , 为避免不稳定的常数，$k_1<<1,k_2<<1$
此外，图像结构由归一化像素值表示（即，$(I - \mu_I)/\sigma_I$）,其相关性（即内积）衡量了结构上的相似性，等于I和Iˆ之间的相关系数。因此，结构比较函数Cs(I，Iˆ)被定义为

其中，$\sigma_{I,\hat I}$，为I和Iˆ之间的协方差，c3为稳定性的常数.

最后SSIM由： SSIM

其中，$\alpha,\beta,\gamma$ 是调整相对重要性的控制参数.由于SSIM从HVS(人类视觉系统)的角度评价重建质量，更好地满足了[60]、[61]的要求，也得到了广泛的应用.

2.3.3 平均意见分数

Mean Opinion Score，MSO，平均意见分数 主观方法

　　平均意见得分(MOS)测试是一种常用的主观IQA方法，其中人类评分者被要求为被测试的图像分配感知质量分数。通常情况下，分数是从1（坏）到5（好）。最终的MOS是指所有评分的算术平均值。虽然MOS测试似乎是一种忠实的IQA方法，但它有一些固有的缺陷，如非线性感知量表、偏差和评分标准的方差。在现实中，有一些SR模型在共同的IQA指标(如PSNR)中表现较差，但在感知质量方面远远超过其他模型，在这种情况下，MOS测试是准确测量感知质量[8]，[25]，[46]，[62]，[63]，[64]，[65]的最可靠的IQA方法。

2.3.4 基于学习的感知质量

Learning-based Perceptual Quality

LPIPS,感知损失 perceptual loss

　　Learned perceptual image patch similarity， LPIPS，学习感知图像块相似度，也称为“感知损失”(perceptual loss)，用于度量两张图像之间的差别。来源于CVPR2018《The Unreasonable Effectiveness of Deep Features as a Perceptual Metric》，该度量标准学习生成图像到Ground Truth的反向映射强制生成器学习从假图像中重构真实图像的反向映射，并优先处理它们之间的感知相似度。LPIPS 比传统方法（比如L2/PSNR, SSIM, FSIM）更符合人类的感知情况。LPIPS的值越低表示两张图像越相似，反之，则差异越大。

d为 x0与x之间的距离。从L层提取特征堆(feature stack)并在通道维度中进行单位规格化(unit-normalize)。利用向量WL 来放缩激活通道数,最终计算L2距离。最后在空间上平均，在通道上求和。

　　为了在减少人工干预的同时更好地评估图像的感知质量，研究人员试图通过对大数据集的学习来评估感知质量。具体来说，Ma等人[66]和Talebi等人[67]分别提出了无参考的Ma和NIMA，它们分别从视觉感知分数中学习到，并在没有真实图像的情况下直接预测质量分数。相比之下，Kim等人[68]提出了DeepQA，该方法通过对三组扭曲图像、客观误差图和主观得分进行训练来预测图像的视觉相似性。Zhang等人[69]收集了一个大尺度感知相似度数据集，根据训练后的深度网络的深度特征的差异评估感知图像斑块相似度(LPIPS)，结果表明cnn学习的深度特征感知相似度模型远优于没有cnn的度量。

2.3.5 基于任务的评估

特定任务用特定的评价标准

　　由于SR模型通常可以帮助其他视觉任务完成[6]、[7]、[8]、[9]，因此通过其他任务来评估重建性能是另一种有效的方法。具体来说，研究人员将原始和重建的HR图像输入训练模型，并通过比较对预测性能的影响来评估重建质量。用于评估的视觉任务包括对象识别[8]、[70]、人脸识别[71]、[72]、人脸对齐和解析[30]、[73]等

2.3.6 其他IQA方法

其他IQA方法， Other IQA Methods

1 多尺度机构相似性 MS-SSIM，

2 特征相似度 FSIM，

3 自然图像质量评估器 NIQE

　　除了上面的IQA方法之外，还有其他不太流行的SR指标。多尺度结构相似性(MS-SSIM)[74]比单尺度SSIM在纳入观看条件的变化方面提供了更多的灵活性。特征相似度(FSIM)[75]基于相位一致性和图像梯度幅度提取人类感兴趣的特征点来评价图像质量。自然图像质量评估器(NIQE)[76]利用了在自然图像中观察到的统计规律的可测量偏差，而不暴露于扭曲的图像。

　　最近，Blau等人[77]用数学方法证明了失真(如PSNR，SSIM)和感知质量(如MOS)是不一致的，并表明随着失真的减少，感知质量一定会更差。因此，如何准确地测量SR的质量仍然是一个亟待解决的问题。

2.4 操作通道

Operating Channels

现在大多数都用RGB通道

　　除了常用的RGB颜色空间外，YCbCr颜色空间也被广泛用于SR。在这个空间中，图像分别用Y、Cb、Cr通道表示，分别表示亮度、蓝差和红差的色度分量。虽然目前还没有公认的最佳实践来执行或评估超分辨率，但早期的模型倾向于在YCbCr空间[26]、[43]、[78]、[79]的Y通道上运行，而最近的模型倾向于在RGB通道[28]、[31]、[57]、[70]上运行。值得注意的是，在不同颜色的空间或通道上进行操作（培训或评估）可以使评估结果差异很大(高达4 dB)[23]。

2.5 超分辨率挑战

Super-resolution Challenges

上游任务与下游任务，先研究上游任务，在研究下游任务是一个比较好的水论文的方式。

做实验的时候可以多做几个评价指标，哪个好用哪个。

在本节中，我们将简要介绍图像SR的两个最流行的挑战，NTIRE[80]和PIRM[47]，[81]。

　　NTIRE挑战。图像恢复和增强(NTIRE)的新趋势挑战[80]与CVPR结合，包括多个任务，如SR、去色和着色。对于图像SR，NTIRE挑战是建立在DIV2K[42]数据集上，由双边降缩放轨迹和现实未知退化的盲轨迹组成。这些轨道在降解和尺度因子上有所不同，旨在促进在理想条件和现实世界的不利情况下的SR研究

　　PIRM挑战。感知图像恢复和操作(PIRM)挑战与ECCV相结合，还包括多个任务。与NTIRE相比，PIRM的一个子挑战[47]侧重于生成准确性和感知质量之间的权衡，而另一个[81]侧重于智能手机上的SR。正如众所周知的[77]，失真目标模型经常产生视觉上不愉快的结果，而感知质量目标模型对信息保真度表现较差。具体来说，PIRM根据均方根误差(RMSE)的阈值将感知扭曲平面划分为三个区域。在每个区域，获胜的算法是获得最佳感知质量的[77]，由NIQE[76]和Ma[66]评价。而在另一个子挑战[81]，智能手机上的SR，参与者被要求使用有限的智能手机硬件(包括CPU、GPU、RAM等)执行SR，评价指标包括PSNR、MS-SSIM和MOS测试。通过这种方式，PIRM鼓励对感知失真权衡的高级研究，并在智能手机上驱动轻量级和高效的图像增强。

3 监督超分辨率

SUPERVISED SUPER-RESOLUTION

　　目前，研究人员已经提出了各种具有深度学习的超分辨率模型。这些模型侧重于有监督的SR，即同时用LR图像和相应的HR图像进行训练。虽然这些模型之间的差异非常大，但它们本质上是一组组件的一些组合，如模型框架、上采样方法、网络设计和学习策略。从这个角度来看，研究人员结合这些组件来建立一个集成的SR模型，以拟合特定的目的。在本节中，我们将集中精力模块化地分析基本组件（如图1所示），而不是孤立地介绍每个模型，并总结它们的优点和局限性。

3.1 超分辨率框架

Super-resolution Frameworks

　　由于图像超分辨率是一个不适定问题，如何进行上采样(即从LR输入生成HR输出)是关键问题。尽管现有模型的架构差异很大，但基于所采用的上采样操作及其在模型中的位置，它们可以归因于四个模型框架（如图2所示）。

图2。基于深度学习的超分辨率模型框架。立方体大小表示输出大小。灰色的表示预定义的上采样，而绿色、黄色和蓝色的分别表示可学习的上采样、下采样和卷积层。由虚线框包围的块表示可堆叠的模块

3.1.1 预上采样超分辨率

Pre-upsampling Super-resolution

SRCNN是2014年的文章

具体来说，使用传统方法（如双边插值）将LR图像上采样到具有所需大小的粗糙HR图像，然后在这些图像上应用深度cnn来重建高质量的细节。

优点：学习简单,可以以任意大小和缩放因子的插值图像作为输入

缺点：预定义的上采样会引入副作用，时间和空间成本更高（由于学习都是在高维空间中进行的）

　　由于直接学习从低维空间到高维空间的映射的困难，利用传统的上采样算法获得高分辨率的图像，然后利用深度神经网络进行细化是一个简单的解决方案。因此，Dong等人[22]，[23]首先采用预上采样SR框架(如图2a所示)，并提出SRCNN学习从插值LR图像到HR图像的端到映射。具体来说，使用传统方法（如双边插值）将LR图像上采样到具有所需大小的粗糙HR图像，然后在这些图像上应用深度cnn来重建高质量的细节。

　　由于最困难的上采样操作已经完成，cnn只需要对粗糙的图像进行细化，这大大降低了学习难度。此外，这些模型可以以任意大小和缩放因子的插值图像作为输入，并给出与单尺度SR模型[26]性能相当的重新细化的结果。因此，它已逐渐成为最流行的框架之一，[55]、[56]、[82]、[83]，这些模型之间的主要区别是后验模型设计(Sec.3.3)和学习策略(Sec.3.4).然而，预定义的上采样往往会引入副作用（如噪声放大和模糊），由于大多数操作是在高维空间进行的，时间和空间的成本比其他框架[43]，[84]高得多。

3.1.2 后上采样超分辨率

Post-upsampling Super-resolution

优点：计算复杂度和空间复杂度低（在低维空间中进行计算量大的过程），端到端

缺点：1、依赖尺度因子（因为上采样只有一个过程，加大了对尺度因子的学习差异），导致每个尺度因子（2,3,4）都需要训练一个模型。

2、无法应对多尺度SR的需要

　　为了提高计算效率，充分利用深度学习技术自动提高分辨率，研究人员提出在低维空间中用端到端可学习层替换预定义的计算。在该框架的先驱作品[43]，[84]中，即如图2b所示的后上采样SR，LR输入图像在不提高分辨率的情况下输入深度cnn，在网络末端应用端到端可学习的上采样层。

　　由于计算成本较大的特征提取过程只发生在低维空间中，而分辨率只在最后提高，因此大大降低了计算复杂度和空间复杂度。因此，该框架也已成为最主流的框架之一，[25]，[31]，[79]，[85]。这些模型的不同主要在于可学习的上采样层。3.2)，CNN前结构(Sec. 3.3)和学习策略(Sec. 3.4)，等。

3.1.3 逐步上采样超分辨率

Progressive Upsampling Super-resolution

拉普拉斯金字塔SR网络(LapSRN)：？

MS-LapSRN：？

渐进式SR(progressive SR, ProSR)：？

curriculum learning ，CL，课程学习 2009：近几年逐渐热门的一个前沿方向。 Bengio 首先提出了课程学习（Curriculum learning，CL）的概念，它是一种训练策略，模仿人类的学习过程， 主张让模型先从容易的样本开始学习，并逐渐进阶到复杂的样本和知识。

模型的缺点：多阶段模型设计复杂和训练稳定性高，需要更多的建模指导和更先进的训练策略

　　虽然后上采样的SR框架极大地降低了计算成本，但它仍存在一些缺点。一方面，上采样只需一个步骤即可进行，这大大增加了对大尺度因子（例如，4,8）的学习差异。另一方面，每个比例因子都需要训练一个单独的SR模型，这无法应对多尺度SR的需要。为了解决这些缺点，拉普拉斯金字塔SR网络(LapSRN)[27]采用了渐进式上采样框架，如图2c所示。具体来说，该框架下的模型是基于cnn的级联，并逐步重建更高分辨率的图像。在每个阶段，图像被上采样到更高的分辨率，并通过cnn进行细化。其他的工作，如MS-LapSRN[65]和渐进式SR(ProSR)[32]也采用了这个框架，并实现了相对较高的性能。与LapSRN和MS-LapSRN使用中间重建图像作为后续模块的“基础图像”相比，ProSR保留了主要的信息流，并通过单个头部重建中间分辨率的图像。

　　该框架下的模型将困难任务分解为简单任务，大大降低了学习难度，特别是在因素较大的情况下，并在不引入过多空间和时间成本的情况下应对多尺度SR。此外，一些特定的学习策略，如课程学习(Sec。3.4.3)和多重监督(Sec。3.4.4)可直接集成，进一步降低学习难度，提高最终成绩。然而，这些模型也遇到了一些问题，如多阶段模型设计复杂和训练稳定性高，需要更多的建模指导和更先进的训练策略。

3.1.4 迭代上下采样超分辨率

DBPN(CVPR 2018)：文章很好的利用了传统算法 IBP（迭代反投影）,并通过深度网络实现出来的结构。DBPN论文解读

SRFBN(CVPR 2019)：CVPR的单图像超分辨率文章，主要是用回传机制来提高超分辨率的效果，且不引入过多的参数。主要是设计了一个feedback模块，多次回传.

视频超分RBPN：从连续的视频帧中提取上下文，并将这些上下文结合起来，通过一个反向投影模块产生循环输出帧。

下采样：就是池化

上采样：插值法、反卷积、反池化

　　为了更好地捕捉LR HR图像对的相互依赖关系，在SR[44]中加入了一种高效的迭代过程，反向投影[12]。该SR框架，即迭代上下采样SR(如图2d所示)，尝试迭代应用反投影细化，即计算重建误差，然后将其重新融合，调整HR图像强度。具体来说，Haris等人[57]利用迭代上下采样层提出DBPN，将上采样和下采样层交替连接，并使用所有中间重建重建最终的HR结果。类似地，SRFBN[86]采用了一个迭代的上下采样反馈块，具有更密集的跳跃连接，并学习更好的表示。而视频超分辨率的RBPN[87]从连续的视频帧中提取上下文，并将这些上下文结合起来，通过一个反向投影模块产生循环输出帧。

　　该框架下的模型可以更好地挖掘LR-HR图像对之间的深层关系，从而提供更高质量的重建结果。然而，反投影模块的设计标准仍然不清楚。由于该机制刚刚被引入到基于深度学习的SR中，因此该框架具有巨大的潜力，需要进一步的探索。

3.2 上采样方法

　　除了模型中的上采样位置外，如何进行上采样也非常重要。虽然有各种传统的上采样方法[20]、[21]、[88]、[89]，但利用cnn学习端到端上采样已逐渐成为一种趋势。在本节中，我们将介绍一些传统的基于插值的算法和基于深度学习的上采样层。

3.2.1 基于插值的上采样方法

　　图像插值，a.k.a.图像缩放，是指调整数字图像的大小，并被广泛应用于与图像相关的应用程序中。传统的插值方法包括近邻插值、双线性和双边插值、连续和兰开斯重采样等。由于这些方法易于解释和易于实现，其中一些方法仍被广泛应用于基于cnn的SR模型中。

Nearest-neighbor Interpolation：最近邻插值

Bilinear Interpolation：双线性插值

Bicubic Interpolation：双三次插值

　　Nearest-neighbor Interpolation：最近邻插值是一种简单、直观的算法。它为每个要被插值的位置选择最近的像素的值，而不考虑任何其他像素。因此，这种方法速度非常快，但通常会产生低质量的块状结果。

　　Bilinear Interpolation：双线性插值(BLI)首先在图像的一个轴上进行线性插值，然后在另一个轴上进行，如图3所示。由于它具有2×2大小的二次插值，因此在保持相对较快的速度的同时，它表现出比近邻插值更好的性能。

　　Bicubic Interpolation：同样，双边插值(BCI)[10]对两个轴分别进行三次插值，如图3所示。与BLI相比，BCI考虑了4×4像素，并产生更流畅的结果，更少的伪影，但速度更低。事实上，具有抗锯齿的BCI是构建SR数据集的主流方法(即将HR图像降解为LR图像)，也广泛应用于预上采样SR框架(Sec。3.1.1).

　　事实上，基于插值的上采样方法仅基于其自身的图像信号来提高图像的分辨率，而没有带来更多的信息。

相反，它们经常会引入一些副作用，如计算复杂性、噪声放大、模糊结果。因此，目前的趋势是用可学习的上采样层取代基于插值的方法。

3.2.2 基于学习的上采样

Learning-based Upsampling

transposed convolution layer：反卷积层

sub-pixel layer：子像素层.PixelTCL模型改进了子像素层

Meta Upscale Module：2019CVPR 元高档模块

meta learning：元学习

为了克服基于插值方式的不足，以端到端方式学习上采样，在SR领域中引入了反卷积层和亚像素层。

　　transposed convolution layer：反卷积层，a.k.a.反卷积层[90]，[91]，试图执行与正常卷积相反的变换，即，基于类似于卷积输出大小的特征图来预测可能的输入。具体来说，它通过插入零和进行卷积来展开图像来提高图像的分辨率。以3x3卷积核、2x SR为例（如图4所示），首先将输入扩展为原始大小的两倍，其中添加的像素值设置为0(图4b)。然后与核大小为3×3、步幅1和填充1进行卷积(图4c)。这样，输入就会被上采样到2倍，在这种情况下，接受域最多为2×2。由于反卷积在保持与普通卷积兼容的连接模式的同时，使图像大小以端到端方式放大，因此在SR模型[57]、[78]、[79]、[85]中被广泛用作上采样层。然而，这一层很容易在每个轴[92]上造成“不均匀的重叠”，并且在两个轴上相乘的结果进一步创建了一个不同大小的棋盘状模式，从而损害了SR性能。

　　Sub-pixel Layer：亚像素层[84]是另一个端到端可学习的上采样层，它通过卷积生成多个信道，然后对其进行上采样，如图5所示。在这一层中，首先应用卷积来产生具有$s^2$倍通道的输出，其中s是比例因子(图5b)。假设输入大小为 $h×w×c$ ，输出大小将为 $h×w×s^2c$ 。之后，进行整形操作(a.k.a.执行Shuffle[84])产生大小为 $sh\times sw \times c$ 的输出(图5c)。在这种情况下，接受野最高可达3×3。由于端到端上采样的方式，这一层也被广泛应用于SR模型[25]、[28]、[39]、[93]。与转置卷积层相比，亚像素层具有更大的接受域，提供了更多的上下文信息，帮助生成更真实的细节。然而，由于感受野的分布是不均匀的，块状区域实际上共享相同的感受野，这可能会导致不同块的边界附近的一些伪影。另一方面，独立地预测块状区域中的相邻像素可能会导致输出不平滑。因此，Gao等人[94]提出了PixelTCL，它将独立预测替换为相互依赖的序列预测，并产生更平滑、更一致的结果。

　　Meta Upscale Module：以往的方法需要预先定义缩放因子，即针对不同的因子训练不同的上采样模块，但效率低，不符合实际需要。因此，Hu等人[95]提出了元高档模块（如图6所示），首先基于元学习解决了任意比例因子的SR。具体来说，对于每个目标位置的人力资源图像，这个模块项目一个小补丁LR特性地图（即$k \times k \times c_{in}$），预测卷积权重（即$k \times k \times c_{out}$）根据投影偏移和比例因子密集层和执行卷积。这样，元高档模块就可以通过单一模型的任意因素连续放大。由于大量的训练数据（同时训练多个因素），该模块在固定因素上可以表现出类似甚至更好的性能。

　　虽然该模块在推理过程中需要预测权重，但上采样模块的执行时间只占特征提取[95]时间的1%左右。然而，该方法基于独立于图像内容的几个值来预测每个目标像素的大量卷积权值，因此在面对较大的放大倍数下，预测结果可能不稳定，效率较低。$\textcolor{red} {(大倍数时，效果不好)}$

　　目前，这些基于学习的层已经成为应用最广泛的上采样方法。特别是在后上采样的框架中(Sec. 3.1.2)，这些层通常用于最终上采样阶段，基于低维空间提取的高级表示重建HR图像，从而避免在高维空间中压倒性操作 $\textcolor{red}{(可以理解为避免高位空间的巨大计算量)}$ 的同时实现端端SR。

3.3 网络设计

Network Design

网络设计是深度学习的重要组成部分之一。在超分辨率领域，研究人员将四种SR框架上应用各种网络设计策略(Sec 3.1)来构建最终的网络。在本节中，我们将这些网络分解为网络设计的基本原则或策略，介绍它们，并逐一分析其优点和局限性。

3.3.1 残差学习

　　在He等人[96]提出ResNet来学习残差而不是进行彻底的映射之前，残差学习已被SR模型[48]、[88]、[97]广泛使用，如图7a所示。其中，剩余学习策略大致可分为全局剩余学习和局部剩余学习。

　　Global Residual Learning：由于图像SR是一种图像到图像的转换任务，输入图像与目标图像高度相关，研究者尝试只学习它们之间的残差，即全局残差学习。在这种情况下，它避免了学习从一个完整图像到另一个完整图像的复杂转换，而是只需要学习一个残差映射来恢复缺失的高频细节。由于大多数区域的残差接近于零，模型的复杂性和学习难度大大降低。因此，它被广泛应用于SR模型[26]、[55]、[56]、[98]。

　　Local Residual Learning：局部残差学习类似于ResNet[96]中的残差学习，用于缓解由于网络深度不断增加而导致的[96]退化问题，降低训练难度，提高学习能力。它也被广泛用于SR[70]、[78]、[85]、[99]。在实践中，上述方法都是通过快捷连接（通常按一个小常量缩放）和元素加法实现的，不同之处在于前者（全局）直接连接输入和输出图像，而后者（局部）通常在网络内部不同深度的层之间添加多个快捷方式。

3.3.2 递归学习

　　为了在不引入压倒性参数的情况下学习更高层次的特征，我们在SR字段中引入了递归学习，即以递归的方式多次应用相同的模块，如图7b所示。$\textcolor{red}{(多个卷积层之间共享参数，从而降低了参数量)}$

　　其中，16-recursive DRCN[82]采用单一的卷积层作为递归单元，达到41×41的接受域，远远大于SRCNN[22]的13×13，没有过多的参数。DRRN[56]使用一个ResBlock[96]作为25次递归的递归单元，并且获得了比17-ResBlock基线更好的性能。后来Tai等人[55]提出了基于内存块的MemNet，内存块由6递归的ResBlock组成，每个递归的输出被连接起来，并经过额外的1×1卷积进行记忆和遗忘。级联剩余网络(CARN)[28]也采用了类似的递归单元，包括几个重新块。最近，Li等人[86]采用了迭代上下采样SR框架，提出了一种基于递归学习的反馈网络，其中整个网络的权值在所有递归中共享。

　　此外，研究人员还在不同的部分使用了不同的递归模块。具体来说，Han等人[85]提出了双状态递归网络(DSRN)来在LR和HR状态之间交换信号。在每个时间步长（即递归），每个分支的表示都被更新和交换，以更好地探索LR-HR关系。类似地，Lai等人[65]使用嵌入和上采样模块作为递归单元，因此以较小的性能损失为代价，大大减少了模型的大小。[$\textcolor {red}{递归学习可以用来减小模型的大小}$]

　　一般来说，递归学习确实可以学习更高级的表示，而不引入过多的参数，但仍然不能避免高昂的计算成本。它固有地带来了梯度消失或梯度爆炸的问题，因此一些技术，如残差学习(Sec. 3.3.1)和多重监督(第Sec. 3.4.4)通常与递归学习集成，以缓解这些问题，[55]，[56]，[82]，[85]。[$\textcolor {red} {递归学习可以和残差学习、多重监督相结合，来缓解递归学习本身带来的梯度问题}$]

3.3.3 多路径学习

LapSRN:

DSRN:

MSRN:

MDSR:

CARN:

ProSR:

　　多路径学习是指将特征通过多条路径，这些路径执行不同的操作，并将它们融合回来以提供更好的建模能力。具体来说，它可以分为全局、局部和特定尺度的多路径学习，如下所述。

　　Global Multi-path Learning.全局多路径学习是指利用多条路径来提取图像的不同方面的特征。这些路径在传播过程中可以相互交叉，从而大大提高了学习能力。具体来说，LapSRN[27]包括一个以粗到细的方式预测子带残差的特征提取路径，以及另一个基于来自这两个路径的信号重建HR图像的路径。同样，DSRN[85]利用两条路径分别在低维空间和高维空间中提取信息，并不断地交换信息，以进一步提高学习能力。像素递归超分辨率[64]采用条件反射路径来捕获图像的全局结构，并采用先验路径来捕获生成的像素的串行依赖性。相比之下，Ren等人[100]在模型的末端采用多条具有不平衡结构的路径进行上采样和融合。

　　Local Multi-path Learning.在初始模块[101]的激励下，MSRN[99]采用了一个新的块来进行多尺度特征提取，如图7e所示。在这个块中，采用两个内核大小为3×3和5×5的两个卷积层同时提取特征，然后将输出连接起来，再次进行相同的操作，最后应用额外的1×1卷积。快捷方式通过元素添加连接输入和输出。通过这种局部多路径学习，SR模型可以更好地从多个尺度中提取图像特征，进一步提高性能。

　　Scale-specifific Multi-path Learning.考虑到不同尺度的SR模型需要进行相似的特征提取，Lim等人[31]提出了特定尺度的多路径学习来应对单一网络的多尺度SR。具体地说，它们共享模型的主成分（即特征提取的中间层），并分别在网络的开始和结束时附加了特定尺度的预处理路径和上采样路径(如图7f所示)。在训练期间，只启用和更新与所选比例对应的路径。通过这种方式，所提出的MDSR[31]通过共享不同尺度的大部分参数，大大减少了模型的大小，并表现出与单尺度模型相当的性能。CARN[28]和ProSR[32]也采用了类似的尺度特异性多路径学习。 [$\textcolor {red} {多路径学习用来应对多尺度SR，通过共享参数，以减小模型的大小。}$]

3.3.4 密集连接

Dense Connections

　　由于Huang等人[102]提出了基于dense block的DenseNet，密集连接在视觉任务中越来越流行。对于密集块中的每一层，前面所有层的特征映射被用作输入，其自己的特征映射被用作所有后续层的输入，从而导致l层密集块(l≥2)中的l·(l−1)/2连接。密集连接不仅有助于缓解梯度消失，增强信号传播，鼓励特征重用，而且还通过使用小增长率（即密集块中的通道数量）和连接所有输入特征图后压缩通道，大大减少模型大小。

　　为了融合低级和高级特征，为重构高质量的细节提供更丰富的信息，在SR领域中引入了密集连接，如图7d所示。唐等[79]不仅采用密集块构造一个69层SRDenseNet，还在不同dense block之间插入密集连接dense connection，也就是说，对于每一个dense block，所有之前的特征映射块被用作输入，和自己的特性映射被用作输入到所有后续块。 MemNet[55]、CARN[28]、RDN[93]和ESRGAN[103]也采用了这些层级和块级的密集连接。DBPN[57]也广泛地采用了密集连接，但它们的密集连接位于所有的上采样单元之间，下采样单元也是如此。

$\textcolor {red} {密集连接融合很多不同等级的特征，信息多了，重建的图像也就更清晰了}$

3.3.5 注意力机制

Attention Mechanism

RCAN:深度残差通道注意网络 ECCV-2018-RCAN

　　Channel Attention.考虑到不同通道之间特征表示的相互依赖和相互作用，Hu等人[104]提出了一个“挤压和激励”块，通过明确建模通道相互依赖来提高学习能力，如图7c所示。在这个块中，使用全局平均池化(GAP)将每个输入信道压缩到一个信道描述符（即一个常数）中，然后将这些描述符输入到两个密集的层中，为输入信道生成信道缩放因子。最近，Zhang等人[70]将通道注意机制与SR结合起来，提出了 RCAN，显著提高了模型的表示能力和SR性能。为了更好地学习特征相关性，Dai等人的[105]进一步提出了一个二阶信道注意(SOCA)模块。SOCA通过使用二阶特征统计而不是GAP自适应地调整信道特征，并能够提取更多信息性和区别性的表示。$\textcolor {red} {全局平均数池化GAP，然后拉成条，这样可能有问题，因为丢失了图像的二维信息。可能的创新点}$

　　Non-local Attention.大多数现有的SR模型的局部接受域非常有限。然而，一些遥远的对象或纹理可能对局部补丁的生成非常重要。因此，Zhang等人[106]提出了局部和非局部注意块来提取捕获像素之间的长期依赖关系的特征。具体地说，他们提出了一个用于提取特征的主干分支，以及一个（非）局部掩码分支，用于自适应地重新调整主干分支的特征。其中，局部分支采用编码解码器结构来学习局部注意，而非局部分支采用嵌入式高斯函数来评估特征图中每两个位置指标之间的成对关系，以预测尺度权值。通过这种机制，该方法很好地捕捉了空间注意力，并进一步提高了表示能力。同样，Dai等人[105]也采用了非局部注意机制来捕获长距离空间背景信息。

3.3.6 先进的卷积

Advanced Convolution

$\textcolor {red} {创新点出处,重要}$

由于卷积操作是深度神经网络的基础，研究人员也试图改进卷积操作，以提高性能或提高效率。

Dilated Convolution, 膨胀卷积

Group Convolution, 群卷积, 轻量级CNNs可作为创新点

Depthwise Separable Convolution, 深度可分离卷积

　　Dilated Convolution.众所周知，上下文信息有助于生成SR生成现实细节。因此，Zhang等人[107]在SR模型中用扩张卷积来取代常见的卷积，增加了两次以上，获得了更好的性能。

　　Group Convolution.受轻量级CNNs的最新进展的推动，[108]，[109]，Hui等人[98]和Ahn等人[28]分别提出了IDN和CARN-M，用组卷积代替普通卷积。正如之前的一些工作所证明的那样，组卷积大大减少了参数和操作的数量，而牺牲了一点性能损失[28]，[98]。

　　Depthwise Separable Convolution.由于Howard等人[110]提出了深度可分离卷积的高效卷积，它已经被扩展到不同的领域。具体来说，它由因子分解的深度卷积和点态卷积（即1×1卷积）组成，因此在精度[110]的情况下减少了大量的参数和操作。最近，Nie等人的[81]采用了深度可分离卷积，并大大加速了SR体系结构。

3.3.7 区域递归学习

Region-recursive Learning

大多数SR模型的缺点，缺少像素间的依赖

会加大训练难度和计算成本。

　　大多数SR模型将SR视为独立于像素的任务，因此不能正确地获取生成像素之间的相互依赖。受PixelCNN[111]的启发，Dahl等人[64]首先提出了像素递归学习来执行逐像素生成，分别使用两个网络来捕获全局上下文信息和逐像素生成依赖性。通过这种方式，所提出的方法合成了超分辨率非常低分辨率的人脸图像（如8×8），远远超过了以前的MOS测试[64] (Sec。2.3.3).

　　在人类注意力转移机制[112]的激励下，Attention-FH[113]也采用了这一策略，通过一个循环策略网络，依次发现参与的补丁并执行局部增强。这样，它就能够根据每个图像自身的特征，自适应地个性化一个最优的搜索路径，从而充分利用图像的全局内存性。

　　虽然这些方法在一定程度上表现出更好的性能，但需要长传播路径的递归过程大大增加了计算成本和训练难度，特别是对于超分辨的HR图像。

3.3.8 金字塔Pooling

Pyramid Pooling

多个不同尺度的Pooling，融合成一个特征图，进行然后的操作

　　受空间金字塔池化层[114]的激励，Zhao等人[115]提出了金字塔池化模块，以更好地利用全局和局部上下文信息。具体来说，对于大小为h×w×c的特征图，每个特征图被划分为M×M箱，并经过全局平均池化，得到M×M×c输出。然后进行1×1的卷积，将输出压缩到单个通道。然后，通过双线性插值的方法，将低维特征图上采样到与原始特征图相同的大小。通过使用不同的M，该模块有效地集成了全局信息和局部上下文信息。通过合并该模块，提出的EDSR-PP模型[116]进一步提高了基线的性能。

3.3.9 小波变换

Wavelet Transformation， WT

有搞头

119 W. Bae, J. J. Yoo, and J. C. Ye, “Beyond deep residual learning for

image restoration: Persistent homology-guided manifold simpli-

fification,” in CVPRW, 2017

122 P. Liu, H. Zhang, K. Zhang, L. Lin, and W. Zuo, “Multi-level

wavelet-cnn for image restoration,” in CVPRW, 2018.

　　众所周知，小波变换(WT)[117]，[118]是一种高效的图像表示方法，它将图像信号分解为表示纹理细节的高频子带和包含全局拓扑信息的低频子带。Bae等人[119]首先将WT 与基于深度学习的SR模型相结合，以插值LR小波的子带作为输入，预测相应的HR子带的残差。采用WT和逆WT分别对LR输入进行分解和对HR输出进行重构。类似地，DWSR[120]和小波-srnet[121]也在小波域中执行SR，但其结构更为复杂。与上述独立处理每个子带的工作相比，MWCNN[122]采用了多层次的WT，并将连接的子带作为单个CNN的输入，以便更好地捕捉它们之间的依赖关系。由于小波变换的有效表示，使用该策略的模型往往会大大降低模型的大小和计算成本，同时保持具有竞争力的性能[119]，[122]。

3.3.10 解比像素

Desubpixel

　　为了加快推理速度，Vu等人[123]提出在低维空间中执行耗时的特征提取，并提出了与亚像素层的洗牌操作(Sec。3.2.2).具体来说，去像素操作通过空间分割图像，将它们作为额外的通道堆叠，从而避免了信息的丢失。通过这种方式，他们在模型开始时通过去像素对输入图像进行向下采样，在低维空间中学习表示，并在最后上采样到目标大小。该模型在智能手机[81]的PIRM挑战中取得了最好的成绩。

3.3.11 xUnit

非常适合用来缩减模型的大小

为了结合空间特征处理和非线性激活来更有效地学习
复杂特征，克里格瓦塞等人[124]提出了xUnit来学习空间激活函数。具体来说，ReLU被认为是确定一个权图来与输入进行元素乘法，而xUnit通过卷积和高斯门控直接学习权图。虽然xUnit对计算量的要求更高，但由于其对性能的显著影响，它允许大大减少模型的大小，同时与ReLU匹配性能。通过这种方式，作者在没有任何性能下降的情况下减少了近50%的模型大小。

3.4 学习策略

3.4.1 损失函数

　　在超分辨率领域，使用损失函数来测量重构误差并指导模型优化。在早期，研究人员通常采用像素级的l2损失，但后来发现它不能非常准确地测量重建质量。因此，采用各种重构函数（如内容损失[29]、对抗性损失[25]），以更好地测量重构误差，产生更真实、更高质量的结果。如今，这些损失函数一直发挥着重要的作用。在本节中，我们将进一步研究广泛使用的损失函数。本节中的符号跟随Sec.2.1，除了我们忽略目标HR图像Iˆy的下标y，生成HR图像Iy。

　　Pixel Loss：像素损失测量两个图像之间的像素级差异，主要包括L1损失（即平均绝对误差）和L2损失（即均方误差）：

其中，h、w和c分别为被评估图像的高度、宽度和通道数。此外，还有一个像素L1损失的变体，即夏博尼尔损失 Charbonnier loss [27]，[125]，由：给出：

其中$\epsilon$ 是数值稳定性的一个常数（例如，$10^{-3}$）

　　像素损失限制了生成的HR图像Iˆ足够接近于像素值上的I。与L1损失相比，L2损失惩罚更大的误差，但对小的误差更能容忍，因此往往导致过于平滑的结果。在实际应用中，L1损失比L2损失[28]，[31]，[126]表现出更好的性能和收敛性。自从PSNR的定义以来(Sec。2.3.1)与像素级差异高度相关，最小化像素损失直接最大化PSNR，像素损失逐渐成为目前最广泛使用的损失函数。然而，由于像素损失实际上并没有考虑到图像质量（例如，感知质量[29]，纹理[8]），结果往往缺乏高频细节，并且在感知上不令人满意的过平滑的纹理[25]、[29]、[58]、[74]。

　　Content Loss.为了评价图像的感知质量，将内容损失引入SR[29]，[127]。具体来说，它使用预先训练好的图像分类网络来测量图像之间的语义差异。将该网络表示为 $\Phi$ ，提取的第 $l$ 层上的高级表示表示为 $\phi^{(l)}{(I)}$ ，内容损失表示为两幅图像的高级表示之间的欧氏距离，如下：

其中，hl、wl和cl分别为第l层上表示的通道的高度、宽度和通道数。
本质上，内容损失将学习到的层次图像特征知识从分类网络$\Phi$ 转移到SR网络。与像素损失相比，内容损失鼓励输出图像 $\hat{I}$ 在感知上与目标图像I相似，而不是迫使它们精确地匹配像素。因此，它能产生视觉上更明显的结果，也被广泛应用于[8]、[25]、[29]、[30]、[46]、[103]等领域，其中VGG[128]和ResNet[96]是最常用的预训练cnn

　　Texture Loss:由于重建的图像应该与目标图像具有相同的风格（如颜色、纹理、对比度），并基于Gatys等人[129]、[130]的风格表示，将纹理损失(a.k.a风格重建损失)引入SR。在[129]，[130]之后，将图像纹理视为不同特征通道之间的相关性，定义为Gram矩阵G($l$)∈$R^{cl×cl}$，其中$G^{(l)}_{ij}$是第l层上向量化特征映射i和j之间的内积：

第l层中，i和j通道之间的相关性 = 第l层中，i通道的向量化与 j通道向量化的乘积。

式中，vec（·）表示向量化操作，$\Phi^{(l)}_i(I)$表示图像I的第l层上的特征映射的第i个通道，则纹理损失为：

总损失 = (生成图像的i和j通道之间的相关性 - 真实图像ij相关性)^2开根号，再乘1 / (l层通道数的平方)

　　通过使用纹理损失，由Sajjadi等人提出的EnhanceNet[8]创造了更真实的纹理，并产生了视觉上更令人满意的结果。尽管如此，确定补丁的大小以匹配纹理仍然是经验性的。太小的斑块会导致纹理区域的伪影，而过大的斑块会导致整个图像的伪影，因为纹理统计数据是在不同纹理的区域上平均的.

　　Adversarial Loss.(对抗损失) 近年来，由于GANs[24]具有强大的学习能力，它受到越来越多的关注，并被引入各种视觉任务。具体地说，GAN由一个执行生成（如文本生成、图像转换）的生成器和一个鉴别器组成，该鉴别器将从目标分布中采样的生成结果和实例作为输入，并区分每个输入是否来自目标分布。在训练过程中，交替进行两个步骤：(a)固定生成器，训练鉴别器更好地鉴别，(b)固定鉴别器，训练生成器欺骗鉴别器。通过充分的迭代对抗性训练，得到的生成器可以产生与真实数据分布一致的输出，而鉴别器不能区分生成的数据和真实数据。

　　在超分辨率方面，采用对抗性学习是很简单的，在这种情况下，我们只需要将SR模型作为一个生成器，并定义一个额外的鉴别器来判断输入图像是否生成。因此，Ledig等[25]首先提出了基于交叉熵的对抗性损失SRGAN，如下：

与上述工作专注于特定形式的对抗性损失，Park等al.[133]认为像素级鉴别器导致产生无意义的高频噪声，并附加另一个特征级鉴别器操作高级表示提取预先训练的CNN捕获更有意义的属性。Xu等人[63]合并了一个由生成器和多个类特定鉴别器组成的多类GAN。ESRGAN[103]使用相对论性GAN[134]来预测真实图像比假图像更真实的概率，而不是输入图像真实或假的概率，从而指导恢复更详细的纹理。

　　广泛的MOS测试(Sec。2.3.3)表明，尽管对抗性损失和内容损失训练的SR模型比像素损失训练的SR模型获得更低的PSNR，但它们在感知质量[8]、[25]方面有显著提高。事实上，该鉴别器提取了真实HR图像中一些难以学习的潜在模式，并推动生成的HR图像符合要求，从而有助于生成更真实的图像。然而，目前GAN的培训过程仍然很困难和不稳定。虽然已经有一些关于如何稳定GAN训练[135]、[136]、[137]的研究，但如何确保集成到SR模型中的GAN得到正确的训练并发挥积极的作用仍然是一个问题。

　　Cycle Consistency Loss.循环一致性损失基于Zhu等人[138]提出的循环方法，Yuan等人[131]提出了一种超分辨率的循环方法。具体地说，他们不仅将LR图像I超解析为HR图像Iˆ，而且还通过另一个CNN将Iˆ降采样回另一个LR图像$I^{'}$。重新生成的$I^{'}$必须与输入I相同，因此引入了周期一致性损失来约束它们的像素级一致性：

$I^{'}$ 为 $\hat I$ 降采样得到的LR图像

$\hat I$ 为输入图像input得到的输出HR图像

Total Variation Loss.总变动损失为了抑制生成图像中的噪声，Aly等人[140]将总变化，Total Variation(TV)损失[139]引入到SR中。它被定义为相邻像素之间的绝对差值之和，并测量图像中有多少噪声，如下：

k为通道，i，j分别为行列坐标

Lai等人[25]和Yuan等人[131]也采用了TV Loss来施加空间平滑度。

　　Prior-Based Loss。基于之前的损失. 除了上述损失函数外，还引入了外部先验知识来约束生成。具体来说，Bulat等人的[30]关注于人脸图像的SR，并引入了一个人脸对齐网络(FAN)来约束人脸地标的一致性。FAN经过预先训练和集成，以提供人脸对齐先验，然后与SR联合训练。通过这种方法，所提出的Super-FAN提高了LR人脸对齐和人脸图像SR的性能。

　　事实上，内容丢失和纹理丢失都引入了分类网络，本质上为SR提供了层次图像特征的先验知识。通过引入更多的先验知识，可以进一步提高SR的性能。

　　在本节中，我们将介绍SR的各种损失函数。在实践中，研究人员经常通过加权平均[8]、[25]、[27]、[46]、[141]将多个损失函数组合起来，以约束生成过程的不同方面，特别是对于失真感知权衡[25]、[103]、[142]、[143]、[144]。然而，不同损失函数的权重需要大量的经验探索，如何合理有效地组合仍然是一个问题。

3.4.2 批标准化

Batch Normalization

　　为了加速和稳定深度cnn的训练，Sergey等人[145]提出了批处理归一化(BN)来减少网络的内部协变量偏移。具体来说，它们对每个小批执行归一化，并为每个通道训练两个额外的转换参数，以保持表示能力。由于BN校准了中间特征分布并减轻了消失的梯度，因此它允许使用更高的学习率，并且对初始化不那么小心。因此，该技术被广泛应用于SR模型[25]、[39]、[55]、[56]、[122]、[146]。

　　然而，Lim等人[31]认为，BN丢失了每幅图像的尺度信息，消除了网络的距离灵活性。因此，他们删除了BN，并使用节省下来的内存成本（高达40%）来开发一个更大的模型，从而大大提高了性能。其他一些型号的[32]、[103]、[147]也采用了这种体验，并实现了性能的改进

3.4.3 课程学习

Curriculum Learning

课程学习[148]是指从一项更容易的任务开始，然后逐渐增加难度。由于超分辨率是一个不适定的问题，并且总是存在大尺度因子、噪声和模糊等不利条件，因此纳入了课程训练，以降低学习难度。

　　为了减少大尺度因子下SR的难度，Wang等人[32]、Bei等人[149]和Ahn等人[150]分别提出了ProSR、ADRSR和渐进式CARN，它们不仅在架构上是渐进式的(Sec。3.1.3)而且也包括培训程序。训练从2×上采样开始，训练结束后，有4×或更大比例因子的部分逐步安装并与前一个部分混合。具体来说，ProSR混合通过线性结合这个水平的输出和之前的采样输出[151]之后，ADRSR连接和附加另一个卷积层，而进步的CARN取代之前的重建块产生图像双分辨率。

　　此外，Park等人[116]将8×SR问题划分为三个子问题（即1×到2×，2×到4×，4×到8×），并为每个问题训练独立的网络。然后将其中两个连接并进行微调，然后与第三个进行连接。此外，他们还将困难条件下的4×SR分解为1×到2×，2×到4×以及去噪或去模糊的子问题。相比之下，SRFBN[86]在不利条件下使用这种策略来处理SR，即从容易降解开始，并逐渐增加降解的复杂性。

　　与普通的训练程序相比，课程学习降低了训练难度，缩短了总训练时间，尤其是在因素较大的情况下。

3.4.4 多监督

Multi-supervision

多监督是指在模型中添加多个监督信号，以增强梯度的传播，避免梯度的消失和爆炸。为了防止递归学习带来的梯度问题（Sec.3.3.2)，DRCN[82]包含了多重监督和递归单元。具体来说，他们将递归单元的每个输出输入一个重建模块，以生成一个HR图像，并通过合并所有的中间重建来构建最终的预测。MemNet[55]和DSRN[85]也采用了类似的策略，它们也是基于递归学习的。

此外，由于LapSRN[27]，[65]在渐进上采样框架下(Sec。3.1.3)在传播过程中产生不同尺度的中间结果，可以直接采用多监督策略。具体来说，中间结果被迫与从真实HR图像中降采样的中间图像相同。

在实践中，这种多监督技术通常是通过在损失函数中添加一些项来实现的，从而更有效地反向传播，从而降低了训练难度，增强了模型训练。

3.5 其他改进

除了网络设计和学习策略外，还有其他技术进一步改进了SR模型.

3.5.1 上下文网络融合

Context-wise Network Fusion

上下文级网络融合(CNF)[100]是指一种融合了来自多个SR网络的预测的堆叠技术(即，在Sec中，多路径学习的一种特殊情况。3.3.3).具体地说，他们分别训练不同架构的SR模型，将每个模型的预测输入单独的卷积层，最后将输出相加得到最终的预测结果。在这个CNF框架中，由三个轻量级SRCNNs[22]，[23]构建的最终模型实现了与效率[100]的先进模型相当的性能。

3.5.2 数据增强

Data Augmentation

数据增强是提高深度学习提高性能最广泛的技术之一。对于图像的超分辨率，一些有用的增强选项包括裁剪、翻转、缩放、旋转、颜色抖动等。[27], [31], [44], [56], [85], [98].此外，Bei等人[149]也随机shuffle RGB通道，这不仅增加了数据，而且减轻了颜色不平衡数据集造成的颜色偏差。

3.5.3 多任务学习

Multi-task Learning

多个网络结合，每个网络的任务不同。

多任务学习[152]是指利用相关任务训练信号中包含的领域特定的信息，如目标检测、语义分割[153]、头部姿态估计和面部属性推理[154]，提高泛化能力。在SR领域，Wang等人[46]整合了语义分割网络，提供语义知识和生成语义特定细节。具体来说，他们提出了空间特征转换，以语义映射作为输入，并预测在中间特征映射上进行的仿射变换的空间级参数。因此，所提出的SFT-GAN在具有丰富语义区域的图像上生成更真实和视觉上令人愉悦的纹理。此外，考虑到直接超分辨的噪声图像可能会导致噪声放大，DNSR[149]提出分别训练去噪网络和SR网络，然后将它们连接在一起并进行微调。类似地，循环GAN(CinCGAN)[131]结合了一个周期去噪框架和一个周期SR模型联合执行降噪和超分辨率。由于不同的任务倾向于关注数据的不同方面，因此将相关的任务与SR模型相结合，通常会通过提供额外的信息和知识来提高SR的性能。

3.5.4 网络插值

Network Interpolation

基于PSNR的模型产生的图像更接近真实，但引入了模糊的问题，而基于gan的模型带来了更好的感知质量，但引入了不愉快的伪影（例如，毫无意义的噪声使图像更“真实”）。为了更好地平衡失真和感知，Wang等人[103]，[155]提出了一种网络插值策略。具体来说，他们训练一个基于PSNR的模型，并通过微调来训练一个基于gan的模型，然后插值两个网络的所有相应参数，以推导出中间模型。通过在不需要再训练网络的情况下调整插值权值，它们可以用更少的伪影产生有意义的结果。

3.5.5 自集成

8个数据的平均数或者中位数作为这个输入的输出，加大的训练的时间。

自集成，a.k.a.增强预测[44]是SR模型常用的一种推理技术。具体来说，对LR图像进行不同角度（0◦、90◦、180◦、270◦）的旋转和水平翻转，得到一组8张图像。然后将这些图像输入SR模型，并对重建的HR图像进行相应的逆变换，得到输出。最终的预测结果由平均数[31]、[32]、[44]、[70]、[78]、[93]或这些输出的中位数[83]进行。通过这种方式，这些模型进一步提高了性能。

3.6 最先进的超分模型

State-of-the-art Super-resolution Models

近年来，基于深度学习的图像超分辨率模型受到了越来越多的关注，并取得了最先进的性能。在前面的章节中，我们将SR模型分解为特定的组件，包括模型框架(Sec。3.1)，上采样方法(Sec。3.2)，网络设计(Sec。3.3)和学习策略(Sec。3.4)，分层分析这些组件，并确定它们的优点和局限性。事实上，今天大多数最先进的SR模型基本上都可以归因于我们在上面总结的多种策略的组合。例如，RCAN[70]最大的贡献来自于通道注意机制(Sec。3.3.5)，它还采用了其他策略，如亚像素上采样(Sec。3.2.2)，剩余学习(Sec。3.3.1)，像素L1损失(第二节。3.4.1)，和自集成(第二节。3.5.5).以类似的方式，我们总结了一些具有代表性的模型及其关键策略，如表2所示。

一些具有代表性模型所采用的超分辨率方法。“Fw.”,"Up", "Rec.", "Res"."Dense", "Att."分别表示SR框架、上采样方法、递归学习、残差学习、密集连接、注意机制。

　　除了SR精度外，效率是另一个非常重要的方面，不同的策略对效率有或多或少的影响。因此，在前几节中，我们不仅分析了所提出的策略的准确性，而且还指出了那些对效率影响较大的策略对效率的具体影响，如后上采样(Sec。3.1.2)，递归学习(Sec。3.3.2)，密集连接(Sec。3.3.4)，xUnit(Sec。3.3.11).我们还对一些具有代表性的SR模型的SR精度(即PSNR)、模型大小（即参数数）和计算成本（即多加数）等相关的SR模型进行了基准测试，如图8所示。精度是通过在4个基准数据集(即Set5[48]，Set14[49]，B100[40]和Urban100[50])上的PSNR的平均值来测量的。模型大小和计算成本用Pytorch-OpCounter[157]计算，其中输出分辨率为720p（即1080×720）。所有的统计数据都是根据原始论文或根据官方模型计算得出的，比例因子为2。为了更好地查看和比较，我们还提供了一个交互式的在线版本1

图8。超分辨率的基准测试。x轴和y轴分别表示多加法器和PSNR，圆的大小表示参数的个数。

4 无监督超分辨率

现有的超分辨率工作主要集中于监督学习，即使用匹配的LR-HR图像对进行学习。然而，由于很难收集同一场景但分辨率不同的图像，因此SR数据集中的LR图像通常是通过对HR图像进行预定义的退化来获得的。因此，训练过的SR模型实际上学习了预定义退化的反向过程。

为了学习现实世界的LR-HR映射没有引入手动退化，研究人员越来越关注无监督SR，在这种情况下只提供未配对LR-HR图像训练，从而产生的模型更有可能应对现实场景中的SR问题。接下来，我们将简要介绍几种现有的具有深度学习的无监督SR模型，还有更多的方法有待探索。

4.1 零射超分

Zero-shot Super-resolution

考虑到单个图像内部的内部图像统计为SR提供了足够的信息，Shocher等[83]提出了零镜头超分辨率(ZSSR)来应对无监督的SR，即在测试时训练针对特定图像的SR网络，而不是在大型外部数据集上训练一个通用的SR网络。具体来说，他们使用[158]从单个图像中估计退化核，并使用该内核通过对不同的比例因子进行退化和对图像进行增强来构建一个小数据集。然后在这个数据集上训练一个小的SRCNN，并用于最终的预测。

　　通过这种方式，ZSSR利用跨尺度内部复发每个图像，因此大大超过以前的方法(1 dB估计内核和2 dB已知内核)图像在非理想条件下（即非双向退化获得的图像和遭受影响模糊、噪声、压缩工件），这更接近真实场景，同时给竞争理想条件下的结果（即双向退化获得的图像）。但是，由于在测试过程中需要为不同的图像训练不同的网络，所以推理时间比其他推理时间要长得多.

4.2 弱监督的超分辨率

为了在不引入预先细化的退化的情况下应对超分辨率，研究人员尝试使用弱监督学习来学习SR模型，即使用未配对的LR HR图像。其中，一些研究人员尝试首先学习HR-to-LR退化，并利用其构建训练SR模型的数据集，而另一些人则设计循环网络同时学习LR-to-HR和HR-to-LR映射。接下来，我们将详细介绍这些模型。

Learned Degradation。学习退化。由于预定义的退化是次优的，从未配对的LR HR数据集学习退化是一个可行的方向。Bulat等人[159]提出了一个两阶段的过程，首先使用未配对的LR-HR图像训练HR-to-LR GAN来学习退化，然后使用基于第一个GAN进行的配对LR-HR图像来训练LR-to-HR GAN。具体来说，对于HR-to-LR GAN，HR图像被输入生成器以产生LR输出，这不仅需要匹配通过缩小HR图像（通过平均池化）获得的LR图像，还需要匹配真实LR图像的分布。训练完成后，将生成器作为退化模型，生成LR-HR图像对。然后对于LR-to-HR GAN，生成器(即SR模型)将生成的LR图像作为输入，预测HR输出，不仅需要匹配相应的HR图像，还需要匹配HR图像的分布。

　　通过应用这两阶段的过程，提出的无监督模型有效地提高了超分辨现实LR图像的质量，并比以往的作品取得了较大的改进。

Cycle-in-cycle Super-resolution. 循环超分辨率. 另一种针对无监督超分辨率的方法是将LR空间和HR空间视为两个域，并使用一个循环中的结构来学习彼此之间的映射。在这种情况下，训练目标包括推动映射的结果以匹配目标域的分布，并使图像通过往返映射可恢复。

　　在CycleGAN[138]的激励下，Yuan等[131]提出了一个由4个发电机和2个鉴别器组成的循环SR网络(CinCGAN)，$noisy LR \leftrightarrow clean LR, clean LR \leftrightarrow cleanHR$。具体来说，在第一个CycleGAN中，有噪声的LR图像被输入一个生成器，输出需要与真实干净LR图像的分布一致。然后它被输入另一个生成器，需要恢复原始输入。采用了几种损失函数（如对抗性损失、周期一致性损失、身份损失）来保证周期一致性、分布一致性和映射有效性。另一个CycleGAN的设计也是类似的，除了映射域的不同。

　　由于避免了预定义的退化，无监督CinCGAN不仅实现了与监督方法相当的性能，而且也适用于各种情况，即使是在非常恶劣的条件下。然而，由于SR问题的不适定本质和CinCGAN的复杂结构，需要一些先进的策略来减少训练的难度和不稳定性。

4.3 深度图像先验

Deep Image Prior

性能差，效率高

考虑到CNN结构足以为逆问题捕获大量的低级图像统计先验，尤利扬诺夫etal.[160]使用随机初始化CNN手工先验执行SR.特别地，他们定义一个生成器网络需要随机向量z输入并试图生成目标人力资源图像Iy。目标是训练网络找到一个降采样Iˆy与LR图像Ix相同的Iˆy。由于网络是随机初始化的，从未训练过，唯一的先验是CNN结构本身。虽然该方法的性能仍然比监督方法(2 dB)差，但它的性能明显优于传统的双三次上采样(1 dB)。此外，它还展示了CNN架构本身的合理性，并提示我们通过将深度学习方法与手工制作的先验，如CNN结构或自相似性相结合，来改进SR。

5 特定领域的应用

Domain-Specific Application

5.1 深度图超分辨率

Depth Map Super-resolution

深度图记录了场景中视点与物体之间的深度（即距离），并在姿态估计[161]、[162]和语义分割[163]、[164]等许多任务中发挥着重要作用。然而，由于经济和生产方面的限制，深度传感器产生的深度图往往分辨率较低，并受到噪声、量化和缺失值等退化效应。因此，引入了超分辨率来提高深度图的空间分辨率。

　　目前，深度地图SR最流行的做法之一是使用另一种经济的RGB相机来获取相同场景的HR图像，以指导LR深度地图的超分辨率。具体来说，Song等人的[165]利用深度场统计depth field statistics 和深度图和RGB图像之间的局部相关性来约束全局统计和局部结构。Hui等[166]利用两个cnn同时对LR深度图进行上采样，对HR RGB图像进行下采样，然后使用RGB特征作为相同分辨率的上采样深度图。Haefner等人[167]进一步利用颜色信息，并通过阴影形状技术指导SR。相比之下，Riegler等人[168]将cnn与能量最小化模型以强大的变分模型 variational model相结合，在没有其他参考图像的情况下恢复HR深度图。

5.2 人脸图像超分辨率

人脸图像超分辨率，a.k.a.人脸幻象 face hallucination (FH)，通常可以帮助其他与面部相关的任务[72]，[73]，[169]。与一般图像相比，人脸图像具有更多的与人脸相关的结构化信息，因此将人脸先验知识（如地标、解析地图、身份）整合到FH中是一种非常流行和有前途的方法。

　　最直接的方法之一是约束生成的图像具有相同的面部相关属性。具体来说，CBN[170]通过交替优化FH和密集对应场估计来利用面部先验。Super-FAN[30]和MTUN[171]都引入了FAN，通过端到端多任务学习来保证面部地标的一致性。FSRNet[73]不仅使用面部地标热图，还使用面部解析图作为先验约束。SICNN[72]旨在恢复真实的身份，采用了超级身份损失函数和域集成训练方法来稳定联合训练。

　　除了明确地使用面部先验外，隐式方法也得到了广泛的研究。TDN[172]集成了空间变压器网络[173]，用于自动空间转换，从而解决了面部不对齐的问题。基于TDN，TDAE[174]采用解码-编码-解码器框架，第一个解码器学习上采样和去噪，编码器将其投影回对齐的无噪声LR人脸，最后一个解码器产生幻觉的HR图像。相比之下，LCGE[175]采用了特定组件的cnn对5个面部组件进行SR，在HR面部组件数据集上使用k-NN搜索来找到相应的补丁，合成细粒度的组件，并最终将它们融合到FH结果中。同样，Yang等[176]将去块人脸图像分解为人脸成分和背景，利用成分地标在外部数据集中检索足够的HR样本，对背景进行通用SR，最后将其融合完成HR人脸。

　　此外，研究人员还从其他角度改进了FH。在人类注意力转移机制[112]的激励下，Attention-FH[113]借助一个循环策略网络，依次发现被参与的人脸斑块并执行局部增强，从而充分利用了人脸图像的全局相互依赖性。UR-DGN[177]采用了一种类似于SRGAN[25]的对抗性学习网络。Xu等人[63]提出了一个基于gan的多类FH模型，由一个通用的生成器和类特定的鉴别器组成。Lee等人[178]和Yu等人[179]都利用条件GAN[180]，利用额外的面部属性信息对指定的属性执行FH。

5.3 高光谱图像的超分

与全色图像(PANs，即3个波段的RGB图像)相比，包含数百个波段的高光谱图像(HSIs)提供了丰富的光谱特征，并帮助各种视觉任务[181]、[182]、[183]。然而，由于硬件的限制，收集高质量的hsi比pan困难得多，分辨率也更低。因此，超分辨率被引入到该领域，研究者倾向于结合HRpan和LRHSIs来预测HRHSIs。其中，Masi等人[184]采用了SRCNN[22]，并结合了几种非线性辐射指数图来提高性能。Qu等[185]联合训练两个编码-解码器网络分别对PAN和HSI进行SR，通过共享解码器和应用角度相似度损失和重构损失等约束，将SR知识从PAN转移到HSI。最近，Fu等人[186]评估了相机光谱响应(CSR)函数对HSISR的影响，提出了一个可以自动选择或设计最优CSR的CSR优化层，性能优于目前。

5.4 真实世界的图像超分

Real-world Image Super-resolution

一般来说，训练SR模型的LR图像是通过手动对RGB图像进行降采样（例如，通过双边降采样）生成的。然而，现实世界的相机实际上捕获12位或14位RAW图像，并通过相机isp（图像信号处理器）执行一系列操作（例如，解噪、去噪和压缩），最终生成8位RGB图像。通过这个过程，RGB图像丢失了很多原始信号，与相机拍摄的原始图像有很大的不同。因此，直接使用手动降采样的RGB图像进行SR是次优的。

　　为了解决这个问题，研究人员研究了如何使用现实世界的图像来进行SR。其中，Chen等[187]分析了成像系统中图像分辨率(R)与视场(V)之间的关系，提出了数据采集策略来进行真实数据集City100，并实验证明了所提出的图像合成模型的优越性。Zhang等[188]通过摄像机的光学变焦构建了另一个真实图像数据集SR-RAW(即配对HR RAW图像和LR RGB图像)，并提出上下文双边损失来解决错位问题。相比之下，Xu等人[189]提出了一种管道，通过模拟成像过程来生成真实的训练数据，并开发了一种双CNN来利用RAW图像中最初捕获的辐射信息。他们还提出学习一个空间变异的颜色变换，以有效的颜色校正和泛化到其他传感器。

5.5 视频超分

Video SR

对于视频超分辨率，多帧提供了更多的场景信息，不仅存在帧内的空间依赖性，而且存在帧间的时间依赖性（如运动、亮度和颜色变化）。因此，现有的工作主要集中于更好地利用时空依赖性，包括显式运动补偿（如基于光流、基于学习）和递归方法等。

　　在基于光流的方法中，Liao等[190]采用光流方法生成HR候选方法，并通过cnn对其进行集成。VSRnet[191]和CVSRnet[192]通过Druleas算法[193]进行运动补偿，并使用cnn以连续帧作为输入并预测HR帧。而Liu等人的[194]，[195]进行了校正光流对齐，并提出了一个时间自适应网络来生成不同时间尺度上的HR框架，并对其进行自适应聚合。

　　此外，其他人也尝试直接学习运动补偿。VESPCN[156]利用一个可训练的空间变压器[173]来学习基于相邻帧的运动补偿，并将多个帧输入到一个时空ESPCN[84]中进行端到端预测。Tao等人从精确的LR成像模型中提取[196]，提出了一个亚像素类模块，同时实现运动补偿和超分辨率，从而更有效地融合对齐的帧。

　　另一个趋势是使用递归的方法来捕获时空依赖性，而不需要明确的运动补偿。具体来说，BRCN[197]，[198]采用了一个双向框架，并分别使用CNN、RNN和条件CNN来对空间、时间和时空依赖性进行建模。类似地，STCN[199]使用深度CNN和双向LSTM[200]来提取空间和时间信息。FRVSR[201]使用先前推断的HR估计，通过两个深度cnn以循环的方式重建后续的HR帧。最近，FSTRN[202]采用了两个小得多的三维卷积滤波器来取代原来的大型滤波器，从而通过较低的cnn提高性能，同时保持低计算成本。而RBPN[87]通过循环解码器提取时空上下文，并将其与基于反向投影机制的迭代细化框架相结合(Sec。3.1.4)

　　此外，FAST[203]利用了压缩算法提取的结构和像素相关性的紧凑描述，将SR结果从一帧转移到相邻帧，并在性能损失很小的情况下加速了最先进的性能SR算法。Jo等[204]基于每个像素的局部时空邻域生成动态上采样滤波器和HR残差图像，并避免了显式的运动补偿。

5.6 其他应用

Other Application ，小物体检测

基于深度学习的超分辨率也被应用于其他特定领域的应用，并显示出良好的性能。具体来说，感知GAN[205]通过对小物体的超分辨表示来解决小物体的检测问题，使其具有与大物体相似的特征，从而解决小物体的检测问题。同样，FSR-GAN[206]在特征空间而不是像素空间中对小尺寸图像进行超解析，从而将原始的差特征转换为具有高度鉴别性的特征，这极大地有利于图像检索。此外，Jeon等人[207]利用立体图像中的视差先验来重建配准时具有亚像素精度的HR图像。Wang等人[208]提出了一个视差注意模型来解决立体图像的超分辨率问题。Li等人的[209]结合了三维几何信息和超分辨率的三维物体纹理贴图。Zhang等人[210]将一个光场中的视图图像分组，学习每组的固有映射，最后将每组的残差合并，重建更高分辨率的光场。总而言之，超分辨率技术可以在各种应用中发挥重要的作用，特别是当我们可以很好地处理大物体，但不能处理小物体时。

6 结论与未来方向

在本文中，我们对深度学习下图像超分辨率的最新进展进行了广泛的研究。我们主要讨论了有监督和无监督SR的改进，并介绍了一些特定领域的应用。尽管取得了巨大的成功，但仍有许多未解决的问题。因此，在本节中，我们将明确地指出这些问题，并介绍未来发展的一些有希望的趋势。我们希望本调查不仅能为研究人员更好地理解图像SR，而且有助于该领域未来的研究活动和应用发展。

6.1 网络设计

良好的网络设计不仅决定了一个具有良好性能上限的假设空间，而且有助于在没有过多的空间和计算冗余的情况下有效地学习表示。下面我们将介绍一些很有前途的网络改进的方向。

　　结合局部信息和全局信息。大的接受域提供了更多的上下文信息，并有助于产生更现实的结果。因此，将局部信息和全局信息相结合，为图像SR提供不同尺度的上下文信息是很有前景的。

　　结合低级的和高级别的信息。cnn中的浅层倾向于提取低级特征，如颜色和边缘，而深层则学习高级表示，如对象身份。因此，将低级细节与高级语义相结合，对HR重建有很大的帮助。

　　特定于上下文的注意。在不同的背景下，人们倾向于关心图像的不同方面。例如，在草地区域，人们可能更关心当地的颜色和纹理，而在动物的身体区域，人们可能更关心物种和相应的头发细节。因此，结合注意机制来增强对关键特征的关注，有利于现实细节的生成。

　　更高效的架构。现有的SR模式倾向于追求最终的性能，而忽略了模型的大小和推理速度。例如，在使用Titan GTX GPU[80]的DIV2K[42]上，EDSR[31]每张图像需要20秒，而DBPN[57]对于8×SR[211]需要35秒。如此长的预测时间在实际应用中是不可接受的，因此更高效的架构势在必行。如何在保持性能的同时减少模型规模和加快预测速度仍然是一个问题。

　　上采样方法。现有的上采样方法(Sec。3.2)有或多或少的缺点：插值方法导致了昂贵的计算，不能端到端学习，转置卷积产生棋盘伪影，亚像素层带来了接受域的不均匀分布，元高档模块可能导致不稳定或低效率，有进一步的改进空间。如何进行有效的上采样仍有待研究，特别是在高尺度因子下。

　　近年来，用于深度学习的神经结构搜索(NAS)技术越来越流行，在很少进行人工干预[212]、[213]、[214]的情况下，大大提高了性能或效率。对于SR领域，将上述方向的探索与NAS相结合具有很大的潜力。

6.2 学习策略

除了良好的假设空间外，还需要稳健的学习策略来获得令人满意的结果。接下来，我们将介绍一些很有前途的学习策略的方向。

　　损失函数。现有的损失函数可以看作是在LR/HR/SR图像之间建立约束，并根据是否满足这些约束来指导优化。在实践中，这些损失函数通常是加权组合的，而SR的最佳损失函数仍不清楚。因此，最有希望的方向之一是探索这些图像之间的潜在相关性，并寻找更准确的损失函数.

　　规范化。虽然BN被广泛应用于视觉任务，大大加快训练，提高性能，但对于超分辨率[31]、[32]、[147]被证明是次优的。因此，还需要研究其他有效的SR归一化技术。

6.3 评价指标

Evaluation Metrics

评估指标是机器学习中最基本的组成部分之一。如果性能不能准确地测量，研究人员将很难验证改进。超分辨率的指标面临着这些挑战，需要更多的探索。

　　更准确的指标。目前，PSNR和SSIM一直是SR中使用最广泛的指标。然而，PSNR倾向于导致过度平滑，结果可能在几乎难以区分的图像之间有很大的差异。SSIM[58]在亮度、对比度和结构方面进行评估，但仍然不能准确地测量感知质量，[8]，[25]。此外，MOS是最接近人类视觉反应的，但需要付出大量的努力，而且是不可复制的。尽管研究人员已经提出了各种指标(Sec。2.3)，但目前还没有统一的和认可的SR质量评价指标。因此，迫切需要更准确的指标来评估重建质量。

　　盲IQA方法。今天，大多数用于SR的度量都是全参考方法，也就是说，假设我们有具有完美质量的LR-HR图像配对。但由于很难获得这样的数据集，因此常用的评估数据集通常是通过人工退化来进行的。在这种情况下，我们执行评估的任务实际上是预定义退化的逆过程。因此，开发盲法IQA方法也有很大的要求。

6.4 无监督超分

如Sec。4所说，在同一场景中采集不同分辨率的图像往往比较困难，因此双边插值被广泛用于构建SR数据集。然而，在这些数据集上训练的SR模型可能只学习预定义退化的逆过程。因此，如何执行无监督的超分辨率(即在没有配对LR-HR图像的数据集上进行训练)是未来的一个很有前途的发展方向。

6.5 面向现实世界的场景

图像的超分辨率在现实场景中受到很大的限制，如遭受未知的退化，缺少配对的LR-HR图像。下面我们将介绍一些关于真实世界场景的方向。

　　处理各种退化问题。现实世界的图像往往会遭受退化，如模糊、附加噪声和压缩伪影。因此，在手动进行的数据集上训练的模型在现实世界的场景中往往表现得很差。人们已经提出了一些解决[39]、[131]、[149]、[159]的工作，但这些方法存在一些固有的缺点，如训练难度大和过完美的假设。这个问题迫切需要得到解决。

　　特定领域的应用。超分辨率不仅可以直接用于特定领域的数据和场景，而且还可以大大帮助其他视觉任务(Sec。 5).因此，将SR应用于视频监控、目标跟踪、医学成像和场景渲染等更具体的领域也是一个很有前景的方向。

posted @ 2022-07-18 16:57 永恒& 阅读(1028) 评论(0) 收藏举报

刷新页面返回顶部

永恒&