基于神经网络的颜色恒常性—Fully Convolutional Color Constancy with Confidence-weighted Pooling

论文地址：

http://openaccess.thecvf.com/content_cvpr_2017/papers/Hu_FC4_Fully_Convolutional_CVPR_2017_paper.pdf

源代码（Python）:

https://github.com/yuanming-hu/fc4

一、 任务描述

网络的主要目的是能够对偏色的图片估计光源，从而移除偏色，恢复图片真实颜色。为满足此类网络训练要求，需要数据集中不仅包括图片且需要提供图片的真实光源数据。

二、 数据集

解释网络原理前，先下载数据集并了解数据集，有助于后面原理的理解

数据集（Shi's Re-processing of Gehler's Raw Dataset）：

http://www.cs.sfu.ca/~colour/data/shi_gehler/

下载的文件包括:

png_canon1d.zip

png_canon5d_1.zip

png_canon5d_2.zip

png_canon5d_3.zip

groundtruth_568.zip；

其中，前四个文件夹中是图片，最后一个文件夹中包括对应图片的光照数据。

下载后，将所有图片放入一个文件夹中，一共有568张图片

注：568张图片是16位RAW图像，电脑图片查看工具一般是8位的，所以显示纯黑

利用Python代码进行图片格式转换(训练时中并不需要此步骤)，可以看到图片真实效果（借助下载文件中保存了真实光源文件real_illum_568.mat），效果如下图(8D5U5525.png)：

(16bit RAW原图) (8bit 图)

代码如下：

三、 网络原理

先看整个网络的结构图：

1） 网络结构：

论文使用全卷积网络，代替了全连接层，可以接受任意图像尺寸的输入，当然，训练时，输入还是需要归一化到大致相当的尺寸，保持统一尺度。同时，代码中使用SqueezeNet网络代替AlexNet网络，相较于AlexNet网络，SqueezeNet更轻量级，在保持同等分类精准率的前提下，模型参数缩小了50部。

2）输入图片

从上述网络框架图中看到输入图片‘input image’的w和h，并不是原始图片的大小，在此项目中w*h=512*512，即一个patch。

而512*512输入图片的产生原理：选择边长比例为【0.1~1】范围内随机值乘以原始图像的较短边，以此大小生成正方形裁剪框；以【-30°~+30°】范围内随机的角度值旋转原始图像，接着，从上述旋转操作结束后得到的图像中随机选择一点作为该方形裁剪框的左上角并开始裁剪，调整裁剪下来的图片大小到512*512。为了增强数据效果，512*512的图片可进行随机的上、下和左、右翻转，且，利用【0.6~1.4】中随机值调整图片RGB值及其光照信息(基于原始光照ground truth值)，这样即完成了数据预处理工作，得到输入图片。

注：上述中涉及的数值均可在源代码文件config.py中进行动态设置

3）架构解析

首先，可以在ImageNet上预训练SqueezeNet，而对于分类作用的SqueezeNet网络提取到的是图片的语义信息，且光照不敏感的；论文中对网络结构进行改造，使用SqueezeNet的前5层卷积层，即输入的结构是：512*512*3，经过SqueezeNet的5层卷积层后得到的结构是：15*15*512；而语义信息会作为区分不同照度的置信权重，语义信息越多的，可认为其权重越大，越能影响决定最终光照。

接着，经过conv6和conv7两个卷积层降维后，结构变成：15*15*4；假设这样规定：经过conv7后得到的4通道数据中包括照明估计的三个颜色通道，第四通道为置信度权重c.

至此，可以看出FC4采用了一种选择机制，选择图像中的哪些色块用于估计，避免语义不明确的色块影响照度估计；网络中采用更大的带有更多的语义patch（以往论文中大多是32*32大小的patch），利用FC网络共享特性将局部估计结合到全局中，同时，利用置信度权重，可以将监督信号仅派发给训练期间具有语义的区域；简单来说：就是先估计所有局部区域的光源，接着聚合所有局部区域的光源信息形成最终结果。注：局部区域并不是一个patch，是其子集

如果希望预测的精度越高，则可以提供更多的patch，其覆盖率越高，精度自然也会更高，但效率会变低。

4）损失值计算

首先，先看下如何计算网络得到光源估计值，参照论文中的公式：