SegNet笔记

SegNet阅读笔记

介绍

  • 明确提出了编码器-解码器结构。
  • 提出了maxpool索引来解码的方法,节省了内存
  • 能有效地在推理期间减少内存占用和增加计算效率。与其他模型相比,它参数数量也要少得多。

网络结构

  • 编码器:VGG16去掉全连接层,大幅度减少了模型的大小(134M to 14.7M),其中顺序为:CNN->BN->ReLU->maxpool。
  • 解码器:和编码器对称结构,但是反池化是根据编码器层中max-pooling indices来反池化,进行上采样。
  • 分类器:SoftMax。

训练

  • 优化算法:SGD,固定学习率0.1,momentum 0.9。
  • Loss函数:交叉熵损失,对一个batch中的每张图片的每个像素点的loss求和。
  • Class balancing:采用“median frequency balancing”技术对不同类别的loss进行了加权。

性能

  • 在SUN RGB-D Indoor Scenes数据集中,和FCN、DeconvNet、Deeplab等方法相比,效果有优势,性能上不如Deeplab但在GPU推理时间上有优势。(DeepLab v1)

总结

SegNet主要目标是为道路和室内场景理解设计一个高效网络。SegNet只存储特征映射的maxpool索引,并在其解码器网络中使用它们,在空间复杂度上有巨大的优势。

posted @ 2020-07-17 22:03  pipecat  阅读(200)  评论(0)    收藏  举报