论文阅读:Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform

论文题目:Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform

作者:Xintao Wang Ke Yu Chao Dong Chen Change Loy

发表:CVPR 2018

链接:http://mmlab.ie.cuhk.edu.hk/projects/SFTGAN/ 

问题动机:尽管卷积神经网络最近已经证明了单幅图像超分辨率的高质量重建,但恢复自然逼真的纹理仍然是一个具有挑战性的问题。我们只需要在语义分割概率图的条件下对单个网络中的少数中间层的特征进行调制。这是通过一个新的空间特征变换( SFT )层实现的,该层为空间特征调制生成仿射变换参数。SFT层可以使用相同的损失函数与SR网络一起进行端到端训练。在测试过程中,它接受一个任意大小的输入图像,并在分类先验的基础上生成一个只有单个前向通道的高分辨率图像。

 

解决思路:以语义分割概率图为条件的,在此基础上生成调制函数数,在网络特征图上空间应用仿射变换。在论文中作者使用的是分类先验信息,STF层也可以使用其他的先验信息,如深度图等批量归一化是一种广泛使用的通过归一化特征统计来简化网络训练的技术。条件归一化应用一些条件的学习函数来代替BN中的特征仿射变换参数。特征线性调制层( FiLM ),用于利用语言信息进行视觉推理。这一层可以看作CN的推广,CN中的仿射变换无需归一化后放置。特征可以直接调制。使用语义图来指导SR域中不同区域的纹理恢复。利用概率图来捕捉细腻的纹理区别,而不是简单的图像片段。改进了loss函数,将先验信息加入。学习到的参数对通过对SR网络中的每个中间特征映射进行空间仿射变换,自适应地影响输出。在测试过程中,给定LR输入和分割概率图,只需要单一的前向通道即可生成HR图像。从条件获得(γ,β)之后,转换通过缩放和移动特定层的特征图来进行,其中,F表示特征映射,其维数与γ和β相同,称为元素分叉,即Hadamard乘积。由于保留了空间维度,SFT层不仅进行特征操作,而且进行空间变换。映射函数M可以是任意函数。在本研究中,我们利用神经网络对M进行优化,使其与SR分支端到端优化。为了在多个SFT层之间进一步共享参数以提高效率,我们使用一个小型条件网络来生成共享的中间条件,这些中间条件可以广播到所有的SFT层。同时,在每个SFT层内部仍保留较少的参数,进一步将共享条件适应于具体的参数γ和β,为特征提供细粒度的控制。首先用双三次插值将LR图像上采样到所需的HR大小。然后将其馈入分割网络作为输入。该网络在COCO数据集上进行预训练,然后在ADE数据集上进行微调,并添加动物和山体图像。我们分别从主SR网络中训练网络。在典型的SR研究设置中,LR图像以HR图像中×4的尺度因子进行降采样。我们发现,在这种分辨率下,即使在给定基于现代CNN的分割模型的LR图像上,仍然可以得到满意的分割结果。图4给出了部分LR图像及其相应的分割结果。如图4所示,LR分割与HR分割接近。我们还没有尝试对小对象进行分割,因为这仍然是图像分割领域的一个挑战性问题。在测试过程中,位于预定义K分割类之外的类将被归类为“背景”类。在这种情况下,我们的方法仍然会产生一组默认的γ和β,将自身退化为SR-GAN,即对所有的类都平等对待。我们的框架是基于对抗学习的,具体地,它由一个生成器Gθ和一个判别器Dη组成,SR网络由16个带有SFT层的残差块组成,这些残差块将共享条件作为输入并学习(γ,β),通过应用仿射变换来调整特征图。使用跳跃连接来简化深度CNN的训练。使用第五层最大池化之前的第四层卷积得到的特征映射,计算它们的特征激活的MSEGAN中的对抗性损失LD也被用来鼓励生成器在自然图像的流形中支持解决方案

 

 

 

 

 

方法亮点:给出了一个模块用来影响网络的输出,对网络整体进行调整,将先验信息加入,增强实验效果。

主要结果:主要实验结果如下图所示:

如上图所示:SRCNN MemNet SFT-GAN一起比较,本文SFT-GAN的效果比较好。

 

 

 

在上图中:第一行:将本文方法与SRGAN EnhancedNet 进行比较。

         第二行:与SRGAN 相比,本文方法产生的视觉结果在所有类别中排名更高。

PS:以上对于论文的见解为本人阅读所得,如有错误,欢迎批评指正。

 

posted @ 2021-11-14 16:47  Maggieisxin  阅读(169)  评论(0编辑  收藏  举报