Deep Learning for Human Parsing: A Survey

23年的综述
Deep Learning for Human Parsing: A Survey

Image Segmentation Methods

Classic Segmentation Methods

Edge Detection
Region Division
Graph Theory
Clustering
Random Walks

Co-segmentation Methods

MRF-based Co-segmentation
Co-segmentation based on Random Walks
Co-segmentation based on Active Contours
Clustering-based Co-segmentation
Co-segmentation based on Graph Theory
Co-segmentation based on Thermal Diffusion
Object-based Co-segmentation

Semantic Segmentation based on DL

FCN 替代全连接使网络能够接受任意尺寸的输入图像

Encoder-Decoder Architecture

然而语义分割任务需要在获取高层语义信息后，将高级特征映射回原始图像尺寸，这就要求采用编码器-解码器架构。

在编码器阶段，主要执行卷积和池化操作以提取包含语义信息的高维特征。卷积操作涉及将图像特定区域与不同卷积核进行逐像素的乘加运算，然后通过激活函数变换获得特征图。池化操作则是在特定区域（池化窗口）内进行采样，并采用某种采样统计量作为该区域的代表性特征。分割网络编码器中常用的骨干模块包括VGG、Inception[58,59]和ResNet[60]。

在解码器阶段，通过高维特征向量执行操作以生成语义分割掩码。将编码器提取的多层次特征映射回原始图像的过程称为上采样。
1. Interpolation method：插值方法采用指定的插值策略在原始图像像素之间插入新元素，从而扩大图像尺寸并实现上采样效果。插值无需训练参数，常被用于早期上采样任务中；
2. Deconvolution：全卷积网络采用反卷积进行上采样。反卷积（又称转置卷积）通过将原始卷积核参数上下颠倒并水平翻转，并在原始图像元素之间及周围填充空白区域来实现这一操作。
3. Unpooling：SegNet [61]采用了非池化的上采样方法。非池化代表CNN中最大池化的逆操作。在进行最大池化时，不仅要记录池化窗口的最大值，还要记录这些最大值的坐标位置；在非池化情况下，会激活该位置的最大值，而其他位置的值均设为0；
4. Dense Up-Sampling Convolution (DUC)：王等人[62]提出了一种密集上采样卷积(DUC)方法，其核心思想是将特征图中的标签映射转换为具有多个通道的较小标签映射。这种转换可以通过直接在输入特征图和输出标签图之间进行卷积来实现，无需在上采样过程中插值额外数值

Skip Connections（U-Net architecture）
跳跃连接（或称捷径连接）的提出旨在改善粗糙的像素定位问题。随着深度神经网络训练的进行，网络性能会随着深度增加而下降，这种退化现象成为亟待解决的难题。为缓解该问题，ResNet和DenseNet[63]分别提出了不同的跳跃连接结构。与之形成对比的是，UNet[64]创新性地提出了长跳跃连接机制（如图8所示），通过将编码器中各层的特征图与解码器对应层进行跳跃连接和级联操作，从而获取图像的细粒度细节特征。该网络最初是为解决生物显微镜图像分割中的标注难题而设计，现已在医学图像分割研究领域获得广泛应用。
Dilated Convolution

空洞卷积（又称带孔卷积）通过在卷积核中插入空洞来构建，以此扩大感受野并减少下采样过程中的计算量。在FCN中，最大池化层被空洞卷积取代，以保持对应层的感受野和特征图的高分辨率。DeepLab系列[65-68]是语义分割领域的经典模型。在提出DeepLab V1之前，由于池化过程中丢失的平移不变性以及未用于预测的标签间概率关系，语义分割结果通常较为粗糙。为改善这些问题，DeepLab V1[65]采用空洞卷积解决上采样过程中的分辨率下降问题，并利用全连接条件随机场（fully connected CRFs）优化分割图像的后处理，从而获取多尺度目标和上下文信息。

Yu等人[69]运用空洞卷积聚合多尺度上下文信息。他们采用包含八个卷积层的上下文模块，其中七层应用了具有不同膨胀因子（即[1,1,2,4,8,16,1]）的3×3卷积核，证明简化的自适应网络能进一步提升图像分割的准确性和精确度，且不损失任何分辨率。在文献[70]中，他们基于ResNet提出空洞残差网络（DRN），包含五组卷积层。后两组（即G4和G5）的下采样被移除以保持特征图的空间分辨率，取而代之的是G4和G5后续卷积分别采用膨胀率𝑟=2和𝑟=4的空洞卷积。

Wang等人[62]提出混合空洞卷积（HDC）以有效解决空洞卷积导致的"网格化"问题。HDC使一系列卷积操作的最终感受野尺寸完全覆盖方形区域，避免出现孔洞或边缘缺失。为此，他们在每层采用不同的膨胀率，而非在下采样后对所有层使用相同膨胀率。

图8. U-Net架构。图片引自[64]。4.3. 空洞卷积空洞卷积通过在卷积核中插入空洞来构建，以此扩大感受野并减少下采样过程中的计算量。在FCN中，最大池化层被空洞卷积取代，以保持对应层的感受野和特征图的高分辨率。DeepLab系列[65-68]是语义分割领域的经典模型。在提出DeepLab V1之前，由于池化过程中丢失的平移不变性以及未用于预测的标签间概率关系，语义分割结果通常较为粗糙。为改善这些问题，DeepLab V1[65]采用空洞卷积解决上采样过程中的分辨率下降问题，并利用全连接条件随机场优化分割图像的后处理，从而获取多尺度目标和上下文信息。
Multiscale Feature Extraction
空间金字塔池化（Spatial pyramid pooling -SPP）的提出是为了解决卷积神经网络需要固定尺寸输入图像的问题。何恺明等人[71]开发了SPP-net，并在语义分割和目标检测任务中验证了其有效性。为充分利用图像上下文信息，赵鑫等人[72]开发了带有金字塔池化模块（PPM）的PSPNet，如图9所示。该网络以ResNet为主干网络，通过PPM提取并聚合不同尺度的子区域特征，随后进行上采样和拼接操作，最终生成同时包含局部与全局上下文信息的特征图。特别值得注意的是，金字塔的层数及每层尺寸均可变，具体取决于输入PPM的特征图尺寸。《电子学》2023年第12期同行评议文章第15页（共25页）4.4节多尺度特征提取空间金字塔池化（SPP）的提出是为了解决卷积神经网络需要固定尺寸输入图像的问题。何恺明等人[71]开发了SPP-net，并在语义分割和目标检测任务中验证了其有效性。为充分利用图像上下文信息，赵鑫等人[72]开发了带有金字塔池化模块（PPM）的PSPNet，如图9所示。该网络以ResNet为主干网络，通过PPM提取并聚合不同尺度的子区域特征，随后进行上采样和拼接操作，最终生成同时包含局部与全局上下文信息的特征图。特别值得注意的是，金字塔的层数及每层尺寸均可变，具体取决于输入PPM的特征图尺寸。
DeepLab V2 [66] 引入了空洞空间金字塔池化（ASPP）技术，通过扩展感受野来捕获多尺度特征。该ASPP模块包含四个具有不同膨胀率的并行空洞卷积层，如图10所示。借鉴HDC方法，DeepLab V3 [67] 同时采用了空洞卷积的级联模块和并行模块，对ASPP模块中的并行卷积进行分组，并在ASPP模块中增加了1×1卷积层和批量归一化处理。相较于前几代无需DenseCRF后处理的DeepLab版本，DeepLab V3实现了显著性能提升。此外，DeepLab V3+ [68] 以Xception为主干网络、DeepLab V3为解码器，采用空洞深度可分离卷积替代最大池化和批量归一化操作，从而优化分割边界精度。

Ghiasi与Fowlkes [73]提出基于拉普拉斯金字塔的多分辨率重建架构，该架构通过融合高分辨率特征图的跳跃连接与乘法门控机制，逐步优化从低分辨率特征图重建的分割边界。

DeepLab V2 [66] 提出的空洞空间金字塔池化（atrous spatial pyramid pooling-ASPP）通过扩展感受野实现了多尺度特征捕获，其ASPP模块包含四个不同膨胀率的并行空洞卷积（如图10所示）。参考HDC方法，DeepLab V3 [67] 在ASPP模块中同时应用了空洞卷积的级联结构与并行结构，对并行卷积进行分组处理，并新增1×1卷积层和批量归一化层。相较于无需DenseCRF后处理的旧版模型，DeepLab V3取得显著改进。而DeepLab V3+ [68] 采用Xception作为主干网络、DeepLab V3作为解码器，运用空洞深度可分离卷积替代最大池化与批量归一化，有效提升了分割边界的精细度。

特征金字塔网络（FPN）[74]的方案与U-Net模型的跳跃连接类似，这种设计有利于在图像中存在显著尺寸差异时，为目标检测任务同时获取高分辨率特征和强语义特征。何等人[75]提出了一种自适应金字塔上下文网络（APCNet）来解决语义分割的最优解问题。他们采用多个自适应上下文模块（ACM）构建多尺度上下文特征表示：每个ACM利用全局图像表示来估计各子区域的局部亲和权重，并根据这些权重计算最优上下文向量。叶等人[76]开发了增强型特征金字塔网络（EFPN），该网络将语义增强模块（SEM）、边缘提取模块（EEM）和上下文聚合模型（CAM）整合到解码器网络中，以提升多级特征融合的鲁棒性；同时在编码器网络中引入全局融合模型（GFM），用于捕获更深层的语义信息并高效传递至各层级。其中SEM模块通过采用更小的扩张率来增强低级特征获取能力，并在后处理中用短残差连接替代池化层，既避免了浅层语义信息丢失，又通过更密集的连接简化了网络结构。吴等人[77]提出了面向实时语义分割的特征金字塔聚合网络FPANet。该网络同样采用编码器-解码器架构，编码阶段使用ResNet和ASPP模块，解码阶段则采用语义双向特征金字塔网络（SeBiFPN）。通过轻量级特征金字塔融合模块（FPFM）减少特征通道数后，SeBiFPN能同步获取图像的语义与空间信息，并实现多层级特征融合。
Attention Mechanism
为了表征图像中不同区域（尤其是远距离区域）之间的依赖关系并获取其语义关联性，自然语言处理（NLP）领域常用的一些方法已被应用于计算机视觉领域，在语义分割任务中取得了显著成效。注意力机制最早于2014年由计算机视觉领域提出，谷歌Mind团队[78]采用循环神经网络（RNN）模型将注意力机制应用于图像分类，使得该机制在图像处理任务中逐渐普及。
循环神经网络（RNN）能够建模像素间的短期依赖关系，通过连接像素并对其进行序列化处理，从而建立全局上下文关联。Visin等人[79]在ReNet[80]基础上提出了ReSeg网络架构，其中每个ReNet层包含四个RNN单元，这些单元沿图像水平和垂直方向进行扫描以获取全局信息。图11展示了ReSeg网络的具体架构。

LSTM(长短期记忆)增加了一个新的功能来记录长期记忆，这可以表示长距离依赖。Bveon等人。[81]使用LSTM实现场景图像的像素级分割，这证明了图像纹理信息和空间模型参数可以在2D LSTM模型中学习。梁等。[82]提出了一种基于图LSTM模型的语义分割模型，该模型将LSTM从序列数据或多维数据扩展到通用图结构，进一步增强了全局上下文视觉特征。
RNN和LSTM都有其局限性，例如减弱了长距离依赖性、需要过多的参数以及不允许并行操作。奥克塔等。[83]所提出的注意力U-Net，如图12所示，它在U-Net中引入了注意力机制。在将编码器中每个分辨率的特征与解码器中相应特征进行拼接之前，它们使用注意力门(AG)模块通过后续层的特征来监督前一层特征，从而对编码器的输出特征进行再调整。AG模块通过生成门控信号来自适应调整激活值，并逐渐抑制无关背景区域的特征响应，以控制不同空间特征的重要性。帕尔等人。[84]提出了一种注意力 UW-Net，其在医学胸部X光图像上取得了良好性能。注意力 UW-Net改进了基干 U-Net 细分网络的跳接连接，即在原始 U-Net 架构的 B-5 和 B6 块之间添加密集连接，这使得网络能够学习先前最大池化中丢失的细节，并有效减少信息损失。此外，设计了一种改进的注意门，通过复制信道注意向量空间来修改注意向量的重采样，从而更好地实现对显著区域的注意和对无关背景区域的抑制。

2017年，Vaswani等人[89]提出了transformer这一完全基于自注意力机制的深度神经网络，彻底摒弃了卷积和循环结构。此后，transformer及其变体（如X-transformer）被应用于计算机视觉领域。借助transformer的自注意力机制和CNN预训练模型，改进后的网络[90,91]取得了一系列突破性进展。Dosovitskiy等人[92]提出的视觉transformer（ViT）证明，transformer能够替代CNN完成图像分块序列的分类与预测任务。如图13所示，他们将图像分割为固定尺寸的图块，将这些图块线性排列后输入由多头注意力层与多层感知机（MLP）交替构成的transformer编码器（右图）。

刘等人[93]开发了Swin Transformer模型，该模型在图像语义分割和实例分割任务中取得了令人瞩目的性能。Swin Transformer改进了滑动窗口方法：通过在深层合并图像块构建分层特征图，在每个局部窗口内计算自注意力，并在连续的Swin Transformer模块中交替使用循环位移窗口划分方法，从而在相邻非重叠窗口间建立跨窗口连接。如图14所示，Swin Transformer网络采用位移窗口方法取代了Transformer模块中的标准多头自注意力(MSA)模块，其余层结构保持不变。

posted @ 2025-09-09 09:27 剪水行舟154 阅读(12) 评论(0) 收藏举报

刷新页面返回顶部

Deep Learning for Human Parsing: A Survey

公告