遥感图像处理笔记之【Machine Learning CS-433 - Class Project 2 - Road Segmentation - EPFL】

遥感图像处理学习（8）

遥感系列第8篇。遥感图像处理方向的学习者可以参考或者复刻

本文初编辑于2024年1月2日
本文再编辑于2024年1月4日：附作者改进U-Net网络图片；文字补充说明

2024年1月25日搬运至本人博客园平台

总结：人家（指模型）已经是他的形状了❤️

阿巴阿巴

作者团队在Google Maps的卫星图像上执行道路语义分割

作者团队使用了50幅尺寸为608x608的RGB卫星图像，以及100幅尺寸为400x400的RGB卫星标记图像。标记图像中的每个像素都被标记为白色（代表道路）或黑色（代表背景）。对图像采用了16x16像素的patch进行分割，而不是像素级别的分割。这种方法能够更好地处理道路的语义。

训练集包含100幅尺寸为400x400的RGB卫星标记图像，而测试集包含50幅尺寸为608x608的RGB卫星图像。
训练集的输出格式为1x400x400x2，测试集的输出格式为1x608x608x2，其中最后两个维度对应于图像的二元分类。

由于训练图像太少了，这里作者做了数据增强，即原图像的旋转再截取中间的小图片，见下图。

作者团队对U-Net网络的encoder阶段的卷积进行了改进，见下图。原始的U-Net网络的encoder的卷积核padding为0，但作者团队将其设定为1，这样就不需要在将图像从encoder复制到decoder时进行裁剪，简化了操作流程。

把别人的模型变成自己的样子，这何尝不是一种NTR！泛式，终将成为你！

在这里插入图片描述

下面是原始U-Net
在这里插入图片描述
下面是作者改进U-Net。
卷积核零填充padding为1的话，就不会在卷积阶段让图片维度减少了，方便网络右侧将上采样图像和特征图像进行合并。

不过除此之外就没什么改动了，评价是不够牛，看看隔壁U-Net++、3D U-Net、Attention U-Net。

模型的输出端采用了LogSoftmax分类，并使用了Negative Log Likelihood误差和IoU误差进行优化。

模型采用了两个优化器，第一个是带有动量的SGD（动量为0.9），这样可以通过让之前的梯度对当前梯度计算产生影响来提供惯性。第二个是Adam优化器，但作者团队发现Adam优化器并不比SGD更有效，所以选择了保持简单的SGD。

此外，模型还实现了一个学习率调度器，允许指数衰减（gamma = 0.95）。

在验证测试中，模型发现一些道路经常被打断，作者团队注意到这种现象通常发生在小道路上，因为建筑物或树的阴影导致切割效果不佳。同时，由于车辆的遮挡和横跨公路的广告牌，模型对高速公路的分割效果也不理想，见右下图。

在这里插入图片描述

不过，作者团队发现通过旋转图片的数据增强方式，可以有效提高对对角线道路的分割效果。

后面都是一些作者的奇思妙想，就不贴上来了。

posted @ 2024-01-02 17:49 这可就有点麻烦了阅读(9) 评论(0) 编辑收藏举报来源

刷新页面返回顶部