R-CNN系列（5）—— Mask R-CNN

1.Mask R-CNN简介

1.1.模型概述

Faster R-CNN是一个多任务模型，它的输出包括预测的目标框，以及每个目标框的置信度。Mask R-CNN在Faster R-CNN的基础上，加多一个任务：实例分割。这个分割任务与边框回归、（置信度）分类回归并行。也就是在经过CNN特征提取、RPN候选框提取、ROI的固定size池化之后，输出到三条路径上，每条路径分别代表一个任务。

Mask R-CNN的分割任务是在RoI上进行的而非整张图片，这样与FCN在整张图像上进行分割相比，无疑速度更加快和位置更加精确。RPN提出的RoI实际上已经为分割任务做出了一些初步的筛选工作。

1.2.对RoIPool的改进

与Faster R-CNN不同的是，Mask R-CNN采用RoIAlign对每个RoI进行固定size池化而非采用RoIPool。因为RoIPool在空间位置上的处理比较粗糙，而分割任务需要精确的位置信息，RoIAlign能达到这个要求。

1.3.损失函数

Mask R-CNN训练简单，只需要在Faster R-CNN的基础上增加一个较小的开销，就能为每个实例生成一个高质量的分隔掩码。在训练时，多任务损失被定义为：L = Lcls + Lbox + Lmask，即分类、边框预测、分割三个任务的损失值之和（也可以为每个任务损失值设定不同的权重）。

2.RoIAlign

因为分割任务需要更精确的空间信息，而RoIPool对空间信息的处理是粗糙的，因为有两次整数化的过程：（1）region proposal的x、y、w、h通常是小数，但是为了方便操作会把它整数化。（2）将整数化后的边界区域平均分割成k*k个单元，对每一个单元的边界进行整数化。两次整数化的过程如下图所示：

问题的关键在于RoIPool的位置信息需要整数化，但x、y、w、h通常是小数，那何不就直接采用小数？RoIAlgin的做法就是直接基于小数形式的x、y、w、h位置信息，对ROI进行固定size的池化：它先在特征图上精确定位ROI的位置(常常不落在不在格子的边框上)，如下图。假如设置固定输出的size是2*2，那么就将ROI分成2*2的网格，然后再对每个格子进行采样，做法是对每个格子再进行划分，比如划分成2*2的小格子，然后利用双线插值法，计算出每个小格子中间位置的像素值作为该小格子的像素值，然后再取这2*2个小格子的最大值作为他们所属格子的池化后的值。这样最终每个ROI的输出就是2*2的矩阵。（这里2*2只是方便举例，实际可能更大。）

3.FCN分支

3.1.结构

某个RoI经过RoIAlign后得到固定size的输出，然后经过一两个卷积层之后，分别输入到三条分支中，其中一条就是FCN分割分支。对于最终的输出，普通的FCN是直接用一个矩阵就搞定了，比如m*m大小，其中每个像素点用softmax来决定属于哪一类，而Mask R-CNN中的FCN却是使用多个矩阵，假如目标种类有K个，那么输出就是K个m*m大小的矩阵，因此可以知道它是将不同类别的目标单独开来进行分割的，也就是说K个矩阵中，每个矩阵只单独分割某一种类的目标，因此避免了种类间的竞争。其中每个像素点用sigmiod函数决定它是否属于当前这一种类。如下面的模型是以COCO数据集为训练和测试数据集，COCO数据集有80个目标种类，因为FCN输出为80个矩阵。

3.2.损失值Lmask

FCN的损失值Lmask定义为二分交叉熵（二分类、sigmiod常用）。虽然每个像素要进行k个二分类，但对于一个RoI而言，它的损失值只统计它真实所属的那一类，而不是统计K个损失值之和。何为RoI真实所属的那一类？RoI与Ground True Box的IoU最高的那一类，且IoU要大于等于0.5，否则就被认为是背景，而背景不加入Lmask的统计当中，即Lmask只考虑Positive RoI。

4.训练与测试

4.1.训练

（1）参数配置：超参数仍然依照Faster R-CNN的设置，因为实验发现，分割效果比较好。

（2）数据集：与Ground True Box的IoU大于等于0.5的被认为是Positive RoI，否则被认为是Negative RoI。

（3）Lmask损失值：Lmask只考虑Positive RoI.

（4）Batch Size：两张图片每个GPU。每张图片采样N个RoI，其中正负RoI比例为1:3。

（5）RPN：anchor有5中scale和3个aspect ratio，因此每个点有15个anchor。

4.2.测试

（1）首先运行边框检测模块和分类模块

（2）然后进行NMS，然后挑选出100个最高分的边框

（3）再将100个最高分边框送去分割模块，得到K个二值化矩阵（K为目标种类数）

（4）将m*m大小的二值化矩阵resize成RoI对应的size

5.细节问题

（1）因为分割任务是每个类别单独出来，那么类别数是需要固定的，如果类别数有变化了，那么FCN网络输出也需要改变。

（2）谈谈为何Mask R-CNN中的FCN分支为何分离了分类任务和分割任务？因为它为每个类别单独进行分割任务。

（3）有个问题：FCN中有分类任务，与FCN并行的分支也有个分类任务，这样好像重复了，能否把这两个统一为一个？或者只留一个？

（4）三个分支中，边框回归和分割是独立的，也就是说分割不是基于边框回归后位置精修的边框，那岂不是目标检测的边框和分割的边框不一样啦？答案是：测试时，边框回归和分割不是并行的，是先边框回归，再NMS，最后再根据精修后的边框进行分割。

（5）实例分割比语义分割的要求更高，为什么Mask R-CNN能够进行实例分割？因为Mask R-CNN的分割是基于RoI的，在分割之前实际上已经获取到了每个实例的所在位置。

posted on 2020-10-31 14:15 ZhicongHou 阅读(296) 评论(0) 收藏举报

刷新页面返回顶部