论文笔记-Understanding Convolution for Semantic Segmentation

图森和CMU的合作工作。

论文链接[https://arxiv.org/abs/1702.08502](https://arxiv.org/abs/1702.08502)

主要提出DUC（dense upsampling convolution）和HDC（hybrid dilated convolution），其中DUC相当于用通道数来弥补卷积/池化等操作导致的尺寸的损失，HDC为了消除在连续使用dilation convolution时容易出现的gridding effect。

1. DUC

* 标准的bilinear interpolation是没有参数需要学习的，对于像素级的分割任务，会造成部分细节信息丢失。

* DUC模块，则是将所有特征图分成$d^2$个子集（d代表图像的降维比例）。假如原始图像大小为$H*W$，卷积之后变为$H/d*W/d$，用$h*w$代替，具体为：

* 先将原先的$h*w*c$变成$h*w*(d^2*L)$，L为分割的类别数目

* 将此后的输出reshape为$H*W*L$，以此引入多个学习的参数，提升对细节的分割效果

2. HDC

连续使用dilation conv时，dilation rate选择不当，已造成某些像素始终无法参与运算，作者将其描述为gridding现象，如下图。

为此，作者提出多种不同的dilation rate连续、交替使用的方案，即

* 连续使用dilation conv时，dilation rate设计成锯齿状结构，如[1,2,5, 1, 2, 5]

* 叠加的卷积层不要有大于1的公约数

* 满足公式

其中，$M_n = r_n$，该公式目标为使得$M_2 \leq K$

3. 实验

该部分，作者以DeepLab_V2为baseline model，并对比多种tricks的效果，如bigger patch size(data augmentation)，larger dilation rate等，验证了larger dilation rate对性能的提升。

* 在Deeplab_v3中对dilation rate的使用提出一个思考，当dilation rate过大时，由于图像的边缘效应导致long range information并没有被学习到。

* 个人思考：在网络的底层，不适合使用较大的dilation rate（貌似很多都是用标准卷积），因为底层网络层更多包含底维信息，如果引入大的dilation rate，会导致部分细节的底层信息被忽略掉。

---

参考资料

1. [https://www.zhihu.com/question/54149221](https://www.zhihu.com/question/54149221)

2. [Rethinking Atrous Convolution for Semantic Image Segmentation](https://arxiv.org/abs/1706.05587)

------------恢复内容开始------------

图森和CMU的合作工作。

论文链接[https://arxiv.org/abs/1702.08502](https://arxiv.org/abs/1702.08502)

1. DUC

* 标准的bilinear interpolation是没有参数需要学习的，对于像素级的分割任务，会造成部分细节信息丢失。

* DUC模块，则是将所有特征图分成$d^2$个子集（d代表图像的降维比例）。假如原始图像大小为$ H*W $，卷积之后变为$ H/d*W/d $，用$ h*w $代替，具体为：

* 先将原先的$ h*w*c $变成$ h*w*(d^2*L) $，L为分割的类别数目

* 将此后的输出reshape为$ H*W*L $，以此引入多个学习的参数，提升对细节的分割效果

2. HDC

连续使用dilation conv时，dilation rate选择不当，已造成某些像素始终无法参与运算，作者将其描述为gridding现象，如下图。

为此，作者提出多种不同的dilation rate连续、交替使用的方案，即

* 连续使用dilation conv时，dilation rate设计成锯齿状结构，如[1,2,5, 1, 2, 5]

* 叠加的卷积层不要有大于1的公约数

* 满足公式

其中，$ M_n = r_n $，该公式目标为使得$ M_2 \leq K $

3. 实验

* 在Deeplab_v3中对dilation rate的使用提出一个思考，当dilation rate过大时，由于图像的边缘效应导致long range information并没有被学习到。

---

参考资料

1. [https://www.zhihu.com/question/54149221](https://www.zhihu.com/question/54149221)

2. [Rethinking Atrous Convolution for Semantic Image Segmentation](https://arxiv.org/abs/1706.05587)

------------恢复内容结束------------

posted @ 2018-10-12 21:45 StoneclutterX 阅读(1731) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

StoneclutterX

论文笔记-Understanding Convolution for Semantic Segmentation

公告