"Zero-Shot" Super-Resolution using Deep Internal Learning【ZSSR】【阅读笔记】

项目地址:http://www.wisdom.weizmann.ac.il/~vision/zssr/

  之前利用深度学习构建的SR模型都是有监督学习,利用了大量的外部信息。但是由于这些LR-HR对大部分是通过对HR进行downscale而得到的,因此与实际的LR-HR对的关系有一定的差距。导致这些模型在非理想条件下表现并不好

  本文就是针对这个情况,提出利用图像内部信息的循环性,构建了第一个无监督学习的SR网络。在测试时利用输入的test image,训练一个小的image-specific网络。

  传统的无监督图像增强方法主要依赖的是图像内部图像块之间的欧拉相似度,使用k-近邻搜索。如果某一个特征在图像中没有出现过,效果就不会很好;而且这些相似结构如果大小不统一效果也不好。本文提出的方法则是将输入首先downscale得到一组相对于输入是low-resolution的数据,学习这组图片和输入之间的LR-HR关系,再利用学到的关系生成HR output。不会产生上述问题,而且占用的资源少,速度快。对于非理想条件图像效果好,而且适用于任意大小的输入和任意的放大比例。如果可以增加额外的信息(如downscale kernel, blur kernel)作为先验,效果会更好。

 

 

  文章基于这样一个事实:自然图像中包含大量的内部信息重复。单一图像的内部熵要远小于自然图像的general collection得到的外部熵,因此内部图像统计值相比外部统计值可以提供更强的预测能力。

  文章中提出的具体训练方法:对于一张测试图片,先downscale得到多张图片($I_0, I_1, I_2, ..., I_n$)称为HR father.再将每一个HR father downscale指定的倍数,然后进行旋转和镜像处理,得到一组对应的LR son。训练HR father和LR son之间的映射关系。对于放大倍数s,采用gradually training的方式,即applied for several intermediate scale-factors。网络一共8层,每层64channel,使用ReLU作为激活函数。类似SRCNN,训练时采用pre-upsampling的结构,用L1作为损失函数。最后结果取8个output(四个旋转角度*水平垂直旋转操作)的中位数,再结合反投影操作优化。

  实验还发现:

  • 在LR son中添加一些噪声有利于表现。原因是image-specific信息会在尺度间重复,但噪声产生的artifacts不会。因此添加噪声网络学到的更稳健。
  • 对于图像中的一些高度重复且特别小的区域,internal information特别有效,后续可以尝试结合internal 和external information
  • 监督学习方法在得到测试图像的blur kernel时对于表现没有提升,原因是他们时针对一个特定的kernel进行的彻底地训练和优化地。但是ZSSR会有提升,这说明了一个准确的下采样模型比精细的图像先验要重要得多;使用了错误的下采样模型会导致过光滑的SR结果。

 

entropy 熵:

信息熵是信息量的期望,一件事不确定性越高,熵就越高,所包含的信息量越大。$H(x)=-\sum_{i=1}^{m}p_i(x)logp_i(x)$

图像的熵计算的是像素概率的期望,熵越大图像内部越均匀,图像越清晰。

 

posted @ 2020-07-28 11:12  wyboooo  阅读(801)  评论(0编辑  收藏  举报