Learning in the Frequency Domain 解读

论文：Learning in the Frequency Domain， CVPR 2020

实际的图像尺寸比较大，无法直接输入到CNN处理。因此，各类CNN模型都把图像首先下采样的224x224，然后再处理。但是，这样会引起信息损失并影响准确率。因此，阿里巴巴的研究人员提出新的方法，把RGB图像变换到DCT频率域，而不是直接下采样。该模型不需要改变现有网络结构，因此可以应用于任何CNN网络。

该方法总体思路：高分辨率RGB图像首先转换到YCbCr颜色空间，然后转换为DCT频域。这样就产生多个通道。某些通道对于分类识别的影响较大，因此，只保留重要的通道输入到CNN处理即可。

具体来说，将图像按8x8分块，在Y通道每个块会得到64个DCT信号，对应64个不同的频率分量。对于尺寸为W x H的原始图像, 会有W/8 x H/8 个块。每个块中相同位置的频率分量可以组成一个尺寸为W/8 x H/8 的feature map，这样会产生8x8=64个feature map。对于Cb和Cr通道，也可以各自产生64个feature map。总共产生了64x3=192个feature map。假设W=H=448, 那么现有的基于频域的feature map的尺寸为56x56x192。

对于ResNet-50，输入为224x224，经过一次卷积和pooling后， feature map 尺寸为 56x56。这样我们可以把 56x56x192 的 feature map 放在这里即可。

时间有限，没有仔细阅读代码，有时间补上代码的解析。

posted @ 2020-03-23 15:03 高峰是我啦阅读(1329) 评论(0) 收藏举报

刷新页面返回顶部

OUC计算机科研狗

我们还有一种最后的自由，那就是选择自己的态度

Learning in the Frequency Domain 解读

公告