图像分割算法
所谓图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域,使得这些特征在同一区域内表现出一致性或相似性,而在不同区域间表现出明显的不同。简单的说就是在一副图像中,把目标从背景中分离出来。对于灰度图像来说,区域内部的像素一般具有灰度相似性,而在区域的边界上一般具有灰度不连续性。
基于深度学习的分割
1.基于特征编码(feature encoder based)
在特征提取领域中VGGnet和ResNet是两个非常有统治力的方法,接下来的一些篇幅会对这两个方法进行简短的介绍
a.VGGnet
它探索了卷积神经网络的深度和其性能之间的关系,通过反复的堆叠33的小型卷积核和22的最大池化层,成功的构建了16~19层深的卷积神经网络。

VGGNet的优缺点
1.由于参数量主要集中在最后的三个FC当中,所以网络加深并不会带来参数爆炸的问题;
2.多个小核卷积层的感受野等同于一个大核卷积层(三个3x3等同于一个7x7)但是参数量远少于大核卷积层而且非线性操作也多于后者,使得其学习能力较强
3.VGG由于层数多而且最后的三个全连接层参数众多,导致其占用了更多的内存(140M)
b.ResNet
深度学习模型的重要问题就是深度学习网络在堆叠到一定深度的时候会出现梯度消失的现象,导致误差升高效果变差,后向传播时无法将梯度反馈到前面的网络层,使得前方的网络层的参数难以更新,训练效果变差。这个时候ResNet恰好站出来。
ResNet语义分割领域最受欢迎且最广泛运用的神经网络。ResNet的核心思想就是在网络中引入恒等映射,允许原始输入信息直接传到后面的层中,在学习过程中可以只学习上一个网络输出的残差(F(x)),因此ResNet又叫做残差网络。

使用到ResNet的分割模型:
1.Efficient Neural Network(ENet):该网络类似于ResNet的bottleNeck方法;
2.ResNet-38:该网络在训练or测试阶段增加并移除了一些层,是一种浅层网络,它的结构是ResNet+FCN;
3.full-resolution residual network(FRRN):FRRN网络具有和ResNet相同优越的训练特性,它由残差流和池化流两个处理流组成;
4.AdapNey:根据ResNet-50的网络进行改进,让原本的ResNet网络能够在更短的时间内学习到更多高分辨率的特征;
ResNet的优缺点:
1)引入了全新的网络结构(残差学习模块),形成了新的网络结构,可以使网络尽可能地加深;
2)使得前馈/反馈传播算法能够顺利进行,结构更加简单;
3)恒等映射地增加基本上不会降低网络的性能;
4)建设性地解决了网络训练的越深,误差升高,梯度消失越明显的问题;
5)由于ResNet搭建的层数众多,所以需要的训练时间也比平常网络要长。
2.基于区域选择(regional proposal based)
Regional proposal在目标检测领域很常用。其核心思想是检测颜色空间和相似矩阵,根据这些来检测待检测的区域。然后根据检测结果可以进行分类个预测。
在语义分割领域,基于区域选择的几个算法如下:
Stage 1 :R-CNN
该网络模型如下图所示,其主要流程为:先使用selective search算法提取2000个候选框,然后通过卷积网络对候选框进行串行的特征提取,再根据提取的特征使用SVM对候选框进行分类预测,最后使用回归方法对区域框进行修正。

R-CNN的优缺点:
1.是首个开创性地将深度神经网络应用到目标检测的算法;
2.使用Bounding Box Regression对目标检测的框进行调整;
3.由于进行特征提取时是串行,处理耗时过长;
4.Selective search算法在提取每一个region时需要2s的时间,浪费大量时间
Stage 2: Fast R-CNN
浙公网安备 33010602011771号