[video super resolution] ESPCN论文笔记

ESPCN是twitter2017年提出来的实时视频超分辨率的方法。下面记录下对论文的一些理解。

上面这张图就是整个网络的架构。输入t帧的相邻图像，t-1和t+1，在具体的网络中，有输入连续3张，5张，7张和9张的，在论文中有分析这个对具体效果的影响，这边是以3张为例。逐像素计算t-1和t帧的lr的图像的位移（通过一个motion estimation的网络），然后将这个位移apply在t-1的lr图像上面，得到warp过的t-1图像。将warp过的t-1/t+1和t图像一起输入一个时空网络，得到最终的单张t帧的SR图像。

所以主要网络是两个，一个motion estimation一个spatio-temporal。

先介绍motion estimation。

这个分两步去做，一个先做coarse 的flow预测，再做fine flow的预测，这样可以使用小的计算量计算更大的位移。这也是在video SR中常用的做法。

再介绍一下另一个重要的时空网络。

时空网络要做的事情是这样的，把几张不同帧的LR图像合成一张SR，所以既有时间上的融合也有空间上的插值。

上图介绍了几种常用的时空网络

a) early fusion

将输入的n张图片concat起来然后用一个n channel的filter去做卷积，这样就把所有的图片在第一layer就融合起来了

b) slow fusion

在第一层的时候不融合所有的图片，比如图中所示，每层只融合相邻的2帧，这就是slow fusion

c) 3D convolution

我们将第一个卷积层的第一个输出feature map放大来看，会发现其实每一个channel都是两个相邻帧得到的

等价于下面我们常见的3D卷积。

这里，3D conv可以看做是slow fusion的权值共享的版本，只不过是在temporal和空域上swap了一下，稍微解释一下。

3D convolution的第一层的第一个feature map，可以看做是slow fusion的第一层的所有feature map的channel 1concat起来的。所不同的是，需要slow fusion中的同一层的weight要一样（即权值共享）。这种权值共享的slow fusion一大好处就是计算力比较省，因为可以复用之前的结果。比如t+2 t+1 t t-1 t-2和t+1 t t-1 t-2 t-3其实中间有一些结果是可以复用的。

具体的结果和分析可以去看论文。

Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation (CVPR 2017)
See https://arxiv.org/abs/1611.05250

posted @ 2019-06-16 21:55 sunny,lee 阅读(2543) 评论(0) 收藏举报

刷新页面返回顶部

sunny,lee

图像处理，机器学习，光学原理，GPU硬件

[video super resolution] ESPCN论文笔记

公告