详细介绍：医学图像分割三大代表性架构简介：CNN、Vision Transformer 与 Mamba

在深度学习驱动下，医学图像分割取得了显著进展。当前，卷积神经网络（CNN）、视觉Transformer（ViT）和 Mamba（状态空间模型）被视为三种最具代表性的架构范式。它们分别代表了局部建模、全局注意力和高效序列建模的不同思路。本文将框架介绍这三类架构在医学图像分割中的工作流程、各自优缺点，并对比它们的本质差异。

CNN

简介

卷积神经网络（CNN）是医学图像分割领域最早被广泛采用、也是至今最为成熟和可靠的深度学习架构。自2015年 U-Net 模型提出以来，基于 CNN 的途径迅速成为该领域的黄金标准，并在大量临床任务中展现出卓越的性能，包括器官分割、肿瘤定位、血管提取等。

工作流程

在典型的医学图像分割任务中，CNN（尤其是 U-Net 及其变体）通常遵循以下工作流程：

（1）输入预处理

原始医学图像（如 CT、MRI 切片或 3D 体积）首先经过标准化处理，例如强度归一化、裁剪或重采样，以统一尺寸和灰度分布，便于网络训练。

（2）编码器特征提取

图像被送入编码器路径，该路径由多个“卷积块”堆叠而成。每个卷积块通常具备两层卷积操作（使用小尺寸卷积核，如 3×3），后接非线性激活函数（如 ReLU）和批量归一化。每搞定一个卷积块后，通过下采样操作（通常是 2×2 最大池化）将特征图的空间分辨率减半，同时通道数翻倍。这一过程重复多次（常见为 4–5 次），逐步提取从边缘、纹理到高级语义的多层次特征。

（3）跳跃连接保存细节

在每次下采样之前，当前分辨率下的特征图会被复制并暂存。这些特征图将在解码器对应层级被重新引入，用于弥补上采样过程中丢失的空间细节，这对于精确恢复器官或病灶的边界至关重要。

（4）瓶颈层处理

在编码器最深层（即分辨率最低处），特征图进入一个“瓶颈”模块，继续进行卷积操作以进一步融合全局上下文信息，但不再进行下采样。

（5）解码器上采样重建

解码器路径与编码器对称。它从瓶颈层开始，逐级执行上采样操作（通常使用转置卷积或插值），将特征图分辨率逐步恢复至原始输入大小。在每次上采样之后，网络会将来自编码器对应层级的跳跃连接特征图拼接（concatenate）进来，再通过若干卷积层融合多尺度信息。

（6）输出分割掩码

经过完整的解码过程后，最后一层通常是一个 1×1 卷积，将高维特征映射为与类别数相同的通道数，再通过 softmax 或 sigmoid 激活函数生成每个像素属于目标类别的概率图，最终输出二值或多类分割结果。

优缺点

优点

（1）局部建模能力强：CNN 的卷积操作天然擅长捕捉医学图像中常见的局部结构、纹理和边界信息，这与 CT、MRI 等模态的成像特性高度匹配。

（2）对小数据友好：得益于其强归纳偏置和参数共享机制，CNN 在标注样本有限的医学场景下仍能实用训练，不易过拟合。

（3）训练稳定且收敛快：相比其他复杂架构，CNN 优化过程更平滑，超参数调优相对简单，适合快捷迭代实验。

（4）计算效率高：推理速度快、显存占用低，便于部署到医院服务器、移动设备或嵌入式系统中。

缺点

（1）感受野有限，难以建模长距离依赖：即使经过深层堆叠扩大感受野，CNN 仍主要依赖局部邻域进行预测，无法有效利用图像中相距较远区域之间的全局关系（如整个器官的形状一致性）。

（2）边界定位精度受限：由于多次下采样导致空间信息损失，即使有跳跃连接，细小结构或模糊边界的分割仍可能出现误差。

（3）缺乏动态适应能力：卷积核是静态的，无法根据输入内容自适应调整关注区域，在面对形态差异大或结构复杂的病灶时灵活性不足。

（4）平移不变性过强：虽然有助于泛化，但也削弱了模型对精确空间位置的敏感性，可能导致细微错位。

（5）结构设计依赖经验：网络深度、卷积核大小、连接方式等需人工设计或大量试错，自动化程度不如近年兴起的一些端到端架构。

基于CNN架构的经典模型

模型名称	提出年份	核心特点	适用场景	当前地位与影响力
U-Net	2015	编码器-解码器结构 + 跳跃连接；专为小样本生物医学图像设计	2D 显微镜图像、皮肤病变、细胞分割	开山之作，所有后续模型的基础
3D U-Net	2016	将 U-Net 扩展为 3D 卷积，直接处理体积数据	CT/MRI 器官分割（如肝脏、脑）	✅ 广泛使用的 3D 分割标准架构
V-Net	2016	引入残差连接的 3D 分割网络，使用 Dice 损失优化	前列腺 MRI 分割	经典 3D 模型，影响力次于 3D U-Net
Attention U-Net	2018	在跳跃连接中加入注意力门控机制，聚焦相关区域	小目标或复杂背景分割（如胰腺）	✅ 热门改进方向，常被集成到其他模型
ResUNet / ResUNet++	2017–2019	结合残差块（+密集连接/注意力），提升深层训练稳定性与表达能力	视网膜血管、皮肤癌、肺部分割	✅ 广泛使用的 U-Net 变体
nnU-Net	2018–2020	非新网络，而是全自动框架：自动选择 2D/3D/Cascade U-Net + 预处理 + 训练策略	几乎所有医学分割任务	事实标准，MICCAI 竞赛常胜军，临床部署首选
MedNeXt	2023	现代 CNN 设计：大卷积核、深度可分离卷积、inverted bottleneck，无注意力	多器官、多模态 3D 分割	新兴强基线，2024–2025 多篇 SOTA 工作采用，CNN 复兴代表

Vision Transformer（ViT）

注：这一部分内容有不理解的地方可以看博主的这篇文章（Transformer讲解）：

https://blog.csdn.net/qq_73038863/article/details/152115310?fromshare=blogdetail&sharetype=blogdetail&sharerId=152115310&sharerefer=PC&sharesource=qq_73038863&sharefrom=from_link

简介

Vision Transformer（ViT）最初为自然图像分类设计，但自2020年后迅速被引入医学图像分析领域，并催生了一系列专用于分割的架构。

与传统卷积网络不同，ViT 完全摒弃了局部卷积操作，转而依赖自注意力机制对图像全局上下文进行建模。这一特性使其在处理结构复杂、依赖长距离关系的医学分割任务（如多器官协同分割或不规则肿瘤边界刻画）中展现出独特优势。尽管 ViT 对数据量和计算资源要求较高，但其强大的表达能力已推动医学图像分割进入“全局感知”新阶段。

工作流程

在医学图像分割任务中，基于 ViT 的模型（如 UNETR、Swin-Unet、TransUNet）通常遵循以下处理流程：

（1）图像分块（Patch Embedding）

输入的 2D 切片或 3D 体积首先被划分为固定大小的非重叠图像块（例如 16×16 像素的 2D patch 或 8×8×8 的 3Dpatch）。

一个卷积层）转换为一个高维向量，形成序列化的“就是每个图像块通过线性投影（通常token”表示。

（2）位置编码注入

由于 Transformer 本身不具备空间顺序感知能力，系统会为每个 token 添加可学习的位置编码，以保留原始图像中各块的空间位置信息。

（3）Transformer 编码器处理

所有 token 被送入由多个 Transformer 层堆叠而成的编码器。每一层涵盖多头自注意力模块和前馈神经网络，能够动态计算任意两个图像块之间的相关性，从而捕获全局上下文依赖。经过多层处理后，输出一组富含语义和空间关系的特征 token。

（4）多尺度特征提取

为了适配分割任务对多分辨率信息的需求，部分模型（如 UNETR）会从 Transformer 编码器的不同深度抽取中间特征，并将这些特征按分辨率分组，用于后续解码。

（5）解码器融合与上采样

解码器通常采用类似 U-Net 的结构，通过逐步上采样恢复空间分辨率。在每一级上采样后，来自 Transformer 编码器的对应层级特征（经 reshape 还原为特征图）会与当前解码特征融合，常经过拼接或相加实现。

（6）输出分割掩码

经过完整的解码过程，最终特征图凭借一个输出卷积层映射为类别概率图，并经激活函数（如 softmax）生成与输入图像尺寸一致的像素级分割结果。

优缺点

优点

（1）全局上下文建模能力强：自注意力机制允许模型同时考虑图像中任意两个区域的关系，有效捕捉器官整体形状、病灶分布等长距离依赖信息。

（2）结构统一，无需手工设计感受野：不像 CNN 需要堆叠多层才能扩大感受野，ViT 天然具备全图视野，简化了网络设计逻辑。

（3）在大规模素材下性能卓越：当有充足标注数据或可迁移预训练权重时，ViT 在多个医学分割 benchmark（如 BraTS、AMOS）上显著超越传统 CNN。

（4）易于扩展到多模态融合：不同模态（如 T1/T2 MRI - 磁共振）可分别编码为 token 后统一送入 Transformer，天然拥护跨模态交互建模。

（5）推动混合架构创新：ViT 催生了大量 CNN-ViT 混合模型（如 CoTr、TransBTS），结合两者优势，成为当前研究热点。

缺点

（1）对小信息集敏感，易过拟合：医学图像通常标注稀缺，而 ViT 缺乏 CNN 那样的强归纳偏置，在小样本场景下表现不稳定，需依赖迁移学习或数据增强。

（2）计算与内存开销大：自注意力的计算复杂度随图像块数量平方增长，处理高分辨率 2D 切片或 3D 体积时显存消耗巨大，限制实际部署。

（3）局部细节建模能力较弱：纯 ViT 对纹理、边缘等局部特征不够敏感，容易在精细结构（如血管分支、肿瘤毛刺）分割上出现误差。所以CNN-ViT 混合模型的涌现正是为了克服这个问题。

（4）位置编码设计影响性能：如何有效编码 2D/3D 空间位置仍是挑战，尤其在处理不规则扫描或各向异性体素时，标准位置编码可能失效。

（5）训练调参复杂：相比 CNN，ViT 对学习率、优化器、正则化策略更敏感，调优成本高，不利于快速实验迭代。

基于VIT的经典模型

模型名称	提出年份	核心特点	适用场景	当前地位与影响力
TransUNet	2021	首个将 ViT 作为编码器、U-Net 作为解码器的混合架构；结合 CNN 局部特征与 Transformer 全局建模	多器官 2D/3D 分割（如 ACDC、Synapse）	开创性工作，ViT 医学分割的里程碑
UNETR	2021	纯 Transformer 编码器 + 卷积解码器；从 ViT 不同层提取多尺度特征用于上采样融合	3D 医学图像（如脑肿瘤、腹部器官）	✅ 广泛使用的纯 ViT 分割基线，MONAI 官方支持
Swin-Unet	2021	基于 Swin Transformer（窗口注意力 + 移动窗口机制），引入层次化特征图结构	高分辨率 2D/3D 分割（如病理切片、CT）	✅ 极受欢迎，兼顾效率与性能
TransBTS	2021	针对脑肿瘤分割设计，融合 CNN 提取局部细节 + ViT 建模全局上下文	BraTS 脑肿瘤 MRI 分割	任务专用 SOTA 模型
CoTr	2021	在 Transformer 中嵌入卷积操作，增强局部感知能力	多器官 3D 分割	✅ 代表性 CNN-ViT 混合模型
nnFormer	2022	类似 nnU-Net 的自动化思想，骨干为 Swin Transformer；承受多尺度特征交互	通用 3D 医学分割	高性能框架
UNETR++	2023	引入深度监督、高效注意力机制（如 axial attention）和更优 skip connection 设计，显著提升分割精度与边界质量	大规模 3D 多器官分割（如 AMOS、MSD）	⭐⭐ 当前 ViT 分割 SOTA 代表之一，MICCAI 2023 最佳论文候选
SegFormer (Medical Adaptation)	2022–2023	轻量级分层 ViT + MLP 解码器；无位置编码，计算高效	实时或资源受限场景下的 2D 分割	新兴轻量选择

Mamba

简介

Mamba 是一种基于选择性状态空间模型（Selective State Space Model, SSM）的新型序列建模架构，最初于 2023 年底在自然语言处理领域提出，因其兼具 Transformer 的长程建模能力和 CNN 的线性计算效率而迅速引起关注。2024 年起，研究者开始将 Mamba 引入计算机视觉，并很快拓展到医学图像分割任务中。

与 CNN 依赖局部卷积、ViT 依赖全局注意力不同，Mamba 通过动态选择输入相关状态的方式，在保持线性时间复杂度的同时完成对关键区域的智能聚焦。这一特性使其特别适合处理高分辨率、结构复杂的医学图像，在多个公开数据集上已展现出超越 ViT 甚至媲美先进 CNN 的潜力，被视为下一代医学图像分割骨干网络的重要候选。

工作流程

在医学图像分割任务中，基于 Mamba 的模型（如 VM-UNet、SegMamba、M-UNet）通常遵循以下处理流程：

（1）输入嵌入与序列化

原始 2D 切片或 3D 体积先通过一个浅层卷积 stem 模块提取初步特征，然后按特定顺序（如逐行、Zigzag 扫描或 Hilbert 曲线）将空间特征图展平为一维token序列，以便 Mamba 处理。

（2）位置与通道混合

为了保留空间结构信息，部分模型会引入可学习的位置编码，或在序列化前采用 2D-aware 扫描策略（如双向扫描），确保相邻像素在序列中保持邻近。

（3）Mamba 块编码

序列 token 被送入由多个 Mamba 块堆叠而成的编码器。每个 Mamba 块包含一个选择性 SSM 模块和一个门控多层感知机（MLP）。SSM 能根据当前输入动态调整状态转移，只对重要信息进行长程传播，从而搭建“内容感知”的全局建模。

（4）多尺度特征抽取

与 U-Net 类似，模型会在 Mamba 编码器的不同深度抽取中间特征，并将其 reshape 回 2D/3D 空间形式，形成多分辨率特征金字塔。

（5）解码器上采样融合

解码器通常采用标准 U-Net 风格结构，通过转置卷积或插值逐步上采样。在每一级，来自编码器对应层级的 Mamba 特征通过跳跃连接拼接进来，并经卷积层融合，逐步恢复细节。

（6）输出分割掩码

最终，高分辨率特征图通过一个输出卷积层映射为类别概率图，并经 sigmoid 或 softmax 激活生成与输入尺寸一致的像素级分割结果。

优缺点

优点

（1）线性计算复杂度：Mamba 的推理时间和内存消耗与图像大小呈线性关系，远优于 ViT 的平方复杂度，特别适合处理高分辨率 CT/MRI 等大尺寸医学图像。

（2）高效长程建模能力：通过选择性状态机制，Mamba 能动态关注与当前任务相关的远距离区域，在保持效率的同时实现类似 Transformer 的全局理解。

（3）对小数据更友好：相比 ViT，Mamba 具有更强的归纳偏置（源于 SSM 的结构先验），在标注有限的医学场景下训练更稳定，泛化能力更强。

（4）硬件友好设计：Mamba 的核心操作经过 CUDA 优化，能充分利用 GPU 内存带宽，在实际运行中比理论复杂度显示的更快。

（5）新兴潜力巨大：作为 2024–2025 年最热门的研究方向之一，Mamba 正快捷迭代，已有多个医学专用变体证明其在 ACDC、Synapse、BraTS 等 benchmark 上达到或接近 SOTA。

缺点

（1）空间结构依赖序列化策略：将 2D/3D 图像展平为 1D 序列会损失部分空间邻接关系，若扫描方式设计不当（如简单逐行），可能影响分割精度。

（2）生态尚不成熟：缺乏统一的标准实现、大规模预训练权重和成熟的调参经验，工程部署门槛较高。

（3）理论理解有限：Mamba 在视觉任务中的工作机制仍在探索中，如何最优地结合空间先验、多尺度建模等仍是开放问题。

（4）社区拥护较弱：相比 CNN 和 ViT，开源代码库、教程和预训练模型较少，复现和调试成本较高。

（5）尚未经过大规模临床验证：目前多数成果仍停留在论文和公开数据集阶段，尚未像 nnU-Net 那样广泛应用于真实医疗系统。

基于Mamba的经典模型

模型名称	提出年份	核心特点	适用场景	当前地位与影响力
VM-UNet	2024	首个将 Vision Mamba 引入 U-Net 框架的医学分割模型；采用双向扫描保留 2D 空间结构	2D/3D 多器官分割（如 Synapse、ACDC）	开创性工作，Mamba 医学分割的里程碑
SegMamba	2024	设计专用 3D Mamba 块，支持体素级序列建模；引入深度监督提升边界精度	3D 医学图像（如腹部 CT、脑 MRI）	✅ 当前最广泛复现的 Mamba 分割模型之一
M-UNet	2024	轻量级设计，结合 Mamba 编码器与高效解码器；强调推理速度与精度平衡	实时或资源受限场景下的 2D 分割	新兴实用模型，适合部署探索
U-Mamba	2024	在 U-Net 跳跃连接中嵌入 Mamba 模块，增强多尺度特征交互；兼容 2D/3D 输入	通用医学图像分割	✅ 高引用率，GitHub 星数增长迅速
MedMamba	2025	针对医学图像特性优化 SSM 参数，引入各向异性扫描策略处理非均匀体素	临床真实世界数据（如低质量 MRI）	最新进展，MICCAI 2025 接收论文
Mamba-SSM（通用视觉适配）	2024	非专为医学设计，但被多个研究组用于医学分割基线实验	初步探索性研究	作为基础骨干运用，非专用模型

三大架构的差异对比

对比维度	CNN（以 U-Net/nnU-Net 为例）	Vision Transformer（以 UNETR/Swin-Unet 为例）	Mamba（以 VM-UNet/SegMamba 为例）
输入表示	原始图像直接作为 2D/3D 张量输入；通过卷积 stem 提取初始特征	图像被划分为固定大小的非重叠 patch（如 16×16），每个 patch 线性嵌入为 token	图像经浅层卷积提取特征后，按特定扫描策略（如逐行、Zigzag、双向）展平为 1D token 序列
空间结构保留方式	天然保持 2D/3D 网格结构；卷积执行隐式利用局部邻域关系	依赖可学习的位置编码（Positional Encoding）显式注入空间顺序	依赖序列化扫描策略（如 Hilbert 曲线、轴向双向扫描）隐式保留空间邻接性
核心特征提取机制	局部卷积核滑动，逐层堆叠扩大感受野；权重共享，参数高效	自注意力机制计算所有 token 两两相关性；全局交互，无归纳偏置	选择性状态空间模型（SSM）：根据输入动态更新隐藏状态，实现内容感知的长程传播
上下文建模范式	局部 → 全局渐进式：通过深层堆叠间接捕获远距离依赖，但本质仍是局部操作	全局并行建模：每层自注意力直接建模任意两个 patch 的关系	选择性长程建模：SSM 动态决定哪些信息需长距离传递，兼顾效率与智能关注
计算复杂度	O(k2⋅HW)（k 为卷积核大小），与图像尺寸近似线性	O((HW)2)（H×W 为 patch 数量），高分辨率下显存爆炸	O(HW)，线性复杂度，硬件优化后实际运行效率高
多尺度特征生成	通过池化/上采样自然形成层级特征金字塔；跳跃连接直接传递同尺度特征	从 Transformer 编码器不同深度抽取 token，reshape 为多分辨率特征图	在 Mamba 编码器不同阶段截取序列特征，逆序列化后形成多尺度空间特征
解码器设计	对称 U-Net 结构：转置卷积 + 跳跃连接拼接，强依赖空间对齐	卷积或 MLP 解码器：将 Transformer 特征图与上采样结果融合，常需额外对齐模块	通常沿用 U-Net 风格解码器，跳跃连接来自 Mamba 编码器的逆序列化特征
边界细节恢复能力	强（得益于跳跃连接保留原始高频信息）	中等（纯 ViT 易丢失细节，混合模型如 Swin-Unet 有所改善）	中到强（依赖扫描策略；双向 Mamba 可提升边界连续性）
典型适用场景	小样本、高精度临床部署、资源受限环境	大规模标注资料、繁琐结构全局建模（如多器官协同）	高分辨率 3D 图像、需长程建模但算力有限的任务

补充：

CNN 的优势在于“结构即先验”——其归纳偏置与医学图像高度契合；

ViT 的优势在于“数据即先验”——在大数据下借助全局注意力学习最优表示；

Mamba 的优势在于“动态选择性”——在保持线性效率的同时，只对重要信息做长程传播。

发表于 2025-12-22 09:52 jzssuanfa 阅读(14) 评论(0) 收藏举报

刷新页面返回顶部

详细介绍：医学图像分割三大代表性架构简介：CNN、Vision Transformer 与 Mamba

CNN

简介

工作流程

优缺点

优点

缺点

基于CNN架构的经典模型

Vision Transformer（ViT）

简介

工作流程

优缺点

优点

缺点

基于VIT的经典模型

Mamba

简介

工作流程

优缺点

优点

缺点

基于Mamba的经典模型

三大架构的差异对比

导航