RCNN

Scene understanding

Image classification
Object detection
Semantic segmentation
Instance segmentation

1. Image classification

goals: the task of object classification requires binary labels indication whether objects are present in an image.（对目标是否出现在图片给出判别，yes or no)

2. object detection

goals:detecting an object entails both stating that an object belonging to a specified class is present, and localizing it in the image.The location of an object is typically represented by a bounding box.(对目标属于什么类别进行判断，进行目标的定位)

3. Semantic scene labeling

goals:the task of labeling semantic objects in a scene requires that each pixel of an image be labeled as belonging to a category, such as sky, chair, steet,etc. In contrast to the detection task, individual instances of objects do not need to be segmented.（要求对图片的像素进行分类，是属于天空、街道等等，需要进行目标检测任务，但是不需要进行分割任务）

4. Instance segment

实例分割是物体检测+语义分割的综合体。相对物体检测的边界框，实例分割可精确到物体的边缘；相对语义分割，实例分割可以标注出图上同一物体的不同个体（羊1，羊2，羊3...）

经典目标检测算法

RCNN
Fast RCNN
Faster RCNN
Mask RCNN

1. RCNN

R-CNN: Region Proposal + CNN + Category-specific Linears SVMs

RCNN算法分为4个步骤

一张图生成1k~2K个候选区域
对每一个候选区域，使用深度网络提取特征
特征送入每一类的SVM分类器，判断属于的类别
使用回归器精细修正候选框的位置

wraped region:包裹的区域

RCNN思想：输入一张图片。提取区域，建议大约2k个区域。然后依次将这些区域送入CNN，进行区域目标区域的分类，和区域框bbox的线性回归。bbox(就是每个区域region矩形框的位置)

论文概要与背景知识整理

backgound

在当时，用 CNN 做 Object Detection 与 Single-label Image Classification 之间的 Gap，或者说这个问题 challenging 的地方一共有两处：

一个就是之前没有过用 CNN 做 Object Detection 的工作。不同于 Image Classification，Object Detection 要求 localizing objects within an image. 这个 Location 信息要怎么给出？在当时流行的 CNN架构AlexNet ，只被用来做图像分类任务。
另外一个就是，labeled data for detection is scarce. AlexNet 在 Single-label Image Classification 上取得成功，是因为 ImageNet 正好有上千万幅标注好的分类图像，但是对于 Object Detection，当时最大的 VOC dataset 可不足以支撑训练其那么多的神经网络参数。

abstract 摘要

论文成果，在PASCAL VOC数据集上，mAP达到53.3%,相比VOC 2012的结果增加30%。主要有两个关键思想：一是可以将高性能的CNN网络应用于自底而上（从背景到前景）的region proposals，以便进行目标检测和定位；二是当有标签的数据很少时，用监督预训练（supervised pre—training）作为一个辅助任务，然后对特别区域进行微调，可以显著提高模型表现力。

introduction

bbox(bounding box)的定位location 是一个回归问题。

可以选择滑动窗口 to localizing objects within an image.为了保持图像高分辨率，CNN一般只有两层convolution and pooling layers. 在本文中，尝试使用sliding-window approach, 但是随着网络的加深，（5个convolution layers),会有很大的receptive fields(感受野 195 * 195 pixels)，strides(32 * 32) in the image。这使得滑动窗口的精确定位变得很困难。

本文为了解决CNN网络的定位问题，采用了“recognition using regions”方法。we use a simple technique(affine image warping) to compute a fixed-size CNN input from each region proposal, regardless of the region's shape.

本文的第二个问题：有标签的数据很少，不足以支持CNN的训练。传统方法是使用无监督的预训练，然后接下来的使用无监督的微调（fine-tuning)。

本文的第二个贡献：在一个大的数据集上进行supervised pre-training， followed by domian special fine-tuning on a small dataset, is an effective paradigm(一个领域主流的理念、方法、行事套路) for learning high-capacity CNNs when data is scarce.

Object detection with R-CNN

目标检测主要有三个模块组成。
第一个生成单一类的目标区域。第二是对于each region，CNN网络提取固定长度(fixed-length)特征向量.第三个是线性分类器SVM.

2.1 模块设计

test-time detection

在测试图片上，提取大约2000 region proposals。wraps each proposal and forward propagate it through the CNN。对于每一类，我们使用SVM进行训练，

all parameters are shared across all categories.在分类中，所有的CNN参数是共享的。也就是说分类任务使用的是同一个CNN网络。

2.2 Model

R-CNN = Region Proposal + CNN + Category-specific Linear SVMs + Non-Maximum Suppression + Bounding Box Regression

The first generates category-independent region proposals.
The second module is a large convolutional neural network that extracts a fixed-length feature vector from each region.
The third module is a set of class-specific linear SVMs.

Module 1:Region Proposal

Region Proposal 用 Selective Search 实现，选这个文章里到没有说是有什么优点采选 SS，而是为了跟其他已有的方法对比，他们用了 SS。所以完全可以用其他 Region Proposal 方法，比如 BING 之类的。

目前我能理解的 detection 的思路其实就是 region classification，确定了哪些 region 里面有什么类的 object 也就完成了 detection，至于怎么产生这些 region，可以用 sliding-window，也可以用 region proposal，其实我觉得 sliding-window 就是一种特别简化的 region proposal 嘛。

Module 2：Feature Extraction

CNN 就是用来抽取特征的，输出是 softmax，但这个只是在训练 CNN fine-tunning 的阶段用，最分类还是用的 SVM.

CNN 对输入的要求是必须都是固定大小的，但是 Region Proposal method 产生的 region 每个都各不相同，怎么把这不规则的 region 输入需要固定大小输入的 CNN，这是怎么解决的呢？Regardless of the size or aspect ratio of the candidate region, we warp all pixels in a tight bounding box around it to the required size.

Module 3: Classification

SVM 用来分类。

Module 4: Non-Maximum Suppression

Given all scored regions in an image, we apply a greedy non-maximum suppression (for each class independently) that rejects a region if it has an intersection-over-union (IoU) overlap with a higher scoring selected region larger than a learned threshold.

去除重复的 Proposal，所以 R-CNN 这里是有大量的冗余计算的，先产生大量的 Proposal，然后最后再剔除掉绝大部分，如果一开始就可以产生少量高质量的 Proposal 就好了，这就是后面改进工作（Faster R-CNN）的 Motivation 了。

Module 5:Bounding Box Regression

Inspired by the bounding box regression employed in DPM [15], we train a linear regression model to predict a new detection window given the pool 5 features for a selective search region proposal.

Conclusion

We achieved this performance through two insights. The first is to apply highh-capacity convolutional neural networks to bottom-up region proposals in order to localize and segment objects.The second is a paredigm for training large CNNs when labeled training data is scarce. We show that it is highly effective to pre-train the network with supervision——for a auxiliary task with abundant data(image classification) and then to fine-tune the network for the target task where data is scarce(detection).

问题一:如何生成候选区域，依据什么规则？

候选区域的生成

使用了Selective Search1方法从一张图像生成约2000-3000个候选区域。Selective Search如下：

使用Efficient GraphBased Image Segmentation中的方法来得到region
得到所有region之间两两的相似度
合并最像的两个region
重新计算新合并region与其他region的相似度
重复上述过程直到整张图片都聚合成一个大的region
使用一种随机的计分方式给每个region打分，按照分数进行ranking，取出top k的子集，就是selective search的结果

相似度的考虑可以结合多种策略

策略多样化（Diversification Strategies)

颜色（颜色直方图）相似度
纹理（梯度直方图）相似度
大小相似度
吻合（fit)相似度
最后把上述相似度按照不同的权重结合到一起

问题二：候选区域的尺寸不一，如何处理？

答：regardless of the size or aspect ratio of the candidate region, we warp(相当于python中的resize操作） all pixels in a tight bounding box around it to the required size.

问题三：使用的CNN网络模型是什么？

答：对于 pre-training: discriminatively pre-trained the CNN on a large auxiliary dataset (ILSVRC 2012) with image-level annotations，就是 pretrained AlexNet。

问题四：分类和回归任务是分开做的，还是同时进行的？

对于 fine-tunning: Domain-specific fine-tuning on VOC

这个 VOC 是 VOC Detection，并不是 Classification，
注意的是，这里是把 Object Region 和 Background Region 输入 CNN，并不是整张图像，而且每个 Region Proposal 都是被 resize 到 227 × 227 大小，为了符合 AlexNet 对输入的要求（因为 fully-connected layer 的要求）。所以只要把 AlexNet 最后分类的 1000 类改成 VOC 的 21 类就可以了，网络结构不用变，因为 R-CNN 背后的思想是 Object Detection by Region Proposal Classification，所以 Classification Network 可以直接拿来用。
构造 Batch 的时候，mini-batch size 是 128，32 个 positive window，从每类里面均匀分布随机采样；96 个 Background window。之所以背景样本比 Object 样本多很多，因为实际情况就是这样的。
对于 Classification: 对于每一个 category，肯定是要构建 positive 和 negative 两类啦
对于完全是背景 or 完全含有目标的 Proposal，很容易判断是 positive or Negative
对于只包含部分的 Proposal，是算 IOU，阈值是 0.3，这是作者做了网格搜索验证后的结果，后面的研究似乎也都沿用了 0.3 这个值。

问题：在有标签数据很少时，传统方法先unsupervised pre-training， followed by domian-specific fine-tune的概念？

答：无监督的预训练不能帮助我们寻找到更好的初始化权重。

无监督的预训练并不能降低训练集的误差，预先训练的模型比随机初始化的模型产生更低的测试成本。它的优点似乎是更好的泛化，而不仅仅是更好的优化过程。

无参数的预训练会带来类似于正则化的效用，是某种特殊的先验分布带来的正则化（此处甚是懵逼），这种效用会随着模型的复杂性的增大而增大。

问题：为什么要用SVM,直接用softmax分类器不好吗？

suppliment里面提到，用softmax效果降低4个百分点。原因有下：

the definition of positive examples used in fine-tuning does not emphasize precise localization
the softmax classifier was trained on randomly sampled negative examples rather than on the subset of “hard negatives” used for SVM training.

非极大抑制（Non-Maximum Suppression）

目标检测中，NMS被用在后期的物体边界框去除。

NMS 对检测得到的全部boxes进行局部的最大搜索，以搜索某邻域范围内的最大值，从而滤出一部分 boxes，提升最终的检测精度。

简而言之，找出score比较region，其中需要考虑不同region的一个重叠问题。

输入：检测到的Boxes(同一个物体可能被检测到很多Boxes，每个box均有分类score)
输出：最优的box
过程：去除冗余的重叠 Boxes，对全部的 Boxes 进行迭代-遍历-消除.

将所有框的得分排序，选中最高分及其对应的框;
遍历其余的框，如果和当前最高分框的重叠面积(IOU)大于一定阈值，则将框删除;
从未处理的框中继续选一个得分最高的，重复上述过程.

假设从一个图像中得到了2000 region proposals，通过在CNN之后我们会得到2000×4096的一个特征矩阵，然后通过N的SVM来判断每一个region属于N的类的scores。其中，SVM的权重矩阵大小为4096×N，最后得到2000*N的一个score矩阵（其中，N为类别的数量）。

Non-Maximum Suppression就是需要根据score矩阵和region的坐标信息，从中找到置信度比较高的bounding box。首先，NMS计算出每一个bounding box的面积，然后根据score进行排序，把score最大的bounding box作为队列中。接下来，计算其余bounding box与当前最大score与box的IoU，去除IoU大于设定的阈值的bounding box。然后重复上面的过程，直至候选bounding box为空。最终，检测了bounding box的过程中有两个阈值，一个就是IoU，另一个是在过程之后，从候选的bounding box中剔除score小于阈值的bounding box。需要注意的是：Non-Maximum Suppression一次处理一个类别，如果有N个类别，Non-Maximum Suppression就需要执行N次。

例如：

假设某物体检测到 4 个 Boxes，每个 Box 分别对应一个类别 Score，根据 Score 从小到大排列依次为，(B1, S1), (B2, S2), (B3, S3), (B4, S4). S4 > S3 > S2 > S1.

Step 1. 根据Score 大小，从 Box B4 框开始；
Step 2. 分别计算 B1, B2, B3 与 B4 的重叠程度 IoU，判断是否大于预设定的阈值；如果大于设定阈值，则舍弃该 Box；同时标记保留的 Box. 假设 B3 与 B4 的阈值超过设定阈值，则舍弃 B3，标记 B4 为要保留的 Box；
Step 3. 从剩余的 Boxes 中 B1, B2 中选取 Score 最大的 B2，然后计算 B2 与剩余的 B1 的重叠程度 IoU；如果大于设定阈值，同样丢弃该 Box；同时标记保留的 Box.
重复以上过程，直到找到全部的保留 Boxes.

Fine-tuning过程

通过对imageNet上训练出来的模型（如CaffeNet、VGGNet、ResNet）进行微调，然后应用到我们自己的数据集上。因为ImageNet数以百万计带标签的数据，使得VGGnet、ResNet等预训练模型具有具有非常强大的泛化能力。通常我们只需要对预训练模型的后几层进行微调，然后应用到我们的数据上，就能得到很好的结果。

简而言之，通过在预训练模型上进行Fine-tuning，可以使得在目标任务达到很高的performance，而且使用相对少的数据量。

经验：在层数较深的情况下，由于deep learning本身的特性，在越高层形成的特征越抽象，而前面的卷积层则是颜色和边缘这些比较泛化的特征，所以在fine-tuning时，可以将前几层conv层的learning_rate设置为0，而后几层conv层不建议置为0，否则会对performance影响太大。

目前最强大的模型是ResNet，很多视觉任务通过fine-tuning ResNet可以得到很好的performance。

fine-tuning和迁移学习的区别？

举个例子，假设今天老板给你一个新的数据集，让你做一下图片分类，这个数据集是关于Flowers的。问题是，数据集中flower的类别很少，数据集中的数据也不多，你发现从零训练开始训练CNN的效果很差，很容易过拟合。怎么办呢，于是你想到了使用Transfer Learning，用别人已经训练好的Imagenet的模型来做。
做的方法有很多：

把Alexnet里卷积层最后一层输出的特征拿出来，然后直接用SVM分类。这是Transfer Learning，因为你用到了Alexnet中已经学到了的“知识”。
把Vggnet卷积层最后的输出拿出来，用贝叶斯分类器分类。思想基本同上。
甚至你可以把Alexnet、Vggnet的输出拿出来进行组合，自己设计一个分类器分类。这个过程中你不仅用了Alexnet的“知识”，也用了Vggnet的“知识”。
最后，你也可以直接使用fine-tune这种方法，在Alexnet的基础上，重新加上全连接层，再去训练网络。

综上，Transfer Learning关心的问题是：什么是“知识”以及如何更好地运用之前得到的“知识”。这可以有很多方法和手段。而fine-tune只是其中的一种手段。

Region Proposal 方法之 Selective Search

如何判断哪些region属于同一个物体？这个问题找不到一个统计的答案。

有些图片可以通过颜色来区分物体，而有些通过纹理区分，还有一些既不是颜色相近，也是不纹理相似。

所以需要结合多种策略，才有可能找打图片中的物体。

Multiscale

在上面两张图片， selective search 展示了不同scale 的必要性。在左边的图片，我们发现目标有不同的scales。在右边的图片，我们必须找到不同的scale，因为女孩包含在tv中。

由于物体之间存在层级关系，所以Selective Search用到了Multiscale的思想。从上图看出，Select Search在不同尺度下能够找到不同的物体。

注意，这里说的不同尺度，不是指通过对原图片进行缩放，或者改变窗口大小的意思，而是，通过分割的方法将图片分成很多个region，并且用合并（grouping）的方法将region聚合成大的region，重复该过程直到整张图片变成一个最大的region。这个过程就能够生成multiscale的region了，而且，也符合了上面“物体之间可能具有层级关系”的假设。

Selective Search方法简介

使用Efficient GraphBased Image Segmentation中的方法来得到region
得到所有region之间两两的相似度
合并最像的两个region
重新计算新合并region与其他region的相似度
重复上述过程直到整张图片都聚合成一个大的region
使用一种随机的计分方式给每个region打分，按照分数进行ranking，取出top k的子集，就是selective search的结果

ps:(efficient GraphBased Image Segmentation)留着后面再看吧，需要补的知识有点多，丧脸！

posted @ 2018-12-16 16:44 wemo 阅读(1672) 评论(0) 收藏举报

刷新页面返回顶部

wemo