在深度学习驱动下,医学图像分割取得了显著进展。当前,卷积神经网络(CNN)、视觉Transformer(ViT) 和 Mamba(状态空间模型) 被视为三种最具代表性的架构范式。它们分别代表了局部建模、全局注意力和高效序列建模的不同思路。本文将框架介绍这三类架构在医学图像分割中的工作流程、各自优缺点,并对比它们的本质差异。
CNN
简介
卷积神经网络(CNN)是医学图像分割领域最早被广泛采用、也是至今最为成熟和可靠的深度学习架构。自2015年 U-Net 模型提出以来,基于 CNN 的途径迅速成为该领域的黄金标准,并在大量临床任务中展现出卓越的性能,包括器官分割、肿瘤定位、血管提取等。
工作流程
在典型的医学图像分割任务中,CNN(尤其是 U-Net 及其变体)通常遵循以下工作流程:
(1)输入预处理
原始医学图像(如 CT、MRI 切片或 3D 体积)首先经过标准化处理,例如强度归一化、裁剪或重采样,以统一尺寸和灰度分布,便于网络训练。
(2)编码器特征提取
图像被送入编码器路径,该路径由多个“卷积块”堆叠而成。每个卷积块通常具备两层卷积操作(使用小尺寸卷积核,如 3×3),后接非线性激活函数(如 ReLU)和批量归一化。每搞定一个卷积块后,通过下采样操作(通常是 2×2 最大池化)将特征图的空间分辨率减半,同时通道数翻倍。这一过程重复多次(常见为 4–5 次),逐步提取从边缘、纹理到高级语义的多层次特征。
(3)跳跃连接保存细节
在每次下采样之前,当前分辨率下的特征图会被复制并暂存。这些特征图将在解码器对应层级被重新引入,用于弥补上采样过程中丢失的空间细节,这对于精确恢复器官或病灶的边界至关重要。
(4)瓶颈层处理
在编码器最深层(即分辨率最低处),特征图进入一个“瓶颈”模块,继续进行卷积操作以进一步融合全局上下文信息,但不再进行下采样。
(5)解码器上采样重建
解码器路径与编码器对称。它从瓶颈层开始,逐级执行上采样操作(通常使用转置卷积或插值),将特征图分辨率逐步恢复至原始输入大小。在每次上采样之后,网络会将来自编码器对应层级的跳跃连接特征图拼接(concatenate)进来,再通过若干卷积层融合多尺度信息。
(6)输出分割掩码
经过完整的解码过程后,最后一层通常是一个 1×1 卷积,将高维特征映射为与类别数相同的通道数,再通过 softmax 或 sigmoid 激活函数生成每个像素属于目标类别的概率图,最终输出二值或多类分割结果。
优缺点
优点
(1)局部建模能力强:CNN 的卷积操作天然擅长捕捉医学图像中常见的局部结构、纹理和边界信息,这与 CT、MRI 等模态的成像特性高度匹配。
(2)对小数据友好:得益于其强归纳偏置和参数共享机制,CNN 在标注样本有限的医学场景下仍能实用训练,不易过拟合。
(3)训练稳定且收敛快:相比其他复杂架构,CNN 优化过程更平滑,超参数调优相对简单,适合快捷迭代实验。
(4)计算效率高:推理速度快、显存占用低,便于部署到医院服务器、移动设备或嵌入式系统中。
缺点
(1)感受野有限,难以建模长距离依赖:即使经过深层堆叠扩大感受野,CNN 仍主要依赖局部邻域进行预测,无法有效利用图像中相距较远区域之间的全局关系(如整个器官的形状一致性)。
(2)边界定位精度受限:由于多次下采样导致空间信息损失,即使有跳跃连接,细小结构或模糊边界的分割仍可能出现误差。
(3)缺乏动态适应能力:卷积核是静态的,无法根据输入内容自适应调整关注区域,在面对形态差异大或结构复杂的病灶时灵活性不足。
(4)平移不变性过强:虽然有助于泛化,但也削弱了模型对精确空间位置的敏感性,可能导致细微错位。
(5)结构设计依赖经验:网络深度、卷积核大小、连接方式等需人工设计或大量试错,自动化程度不如近年兴起的一些端到端架构。
基于CNN架构的经典模型
| 模型名称 | 提出年份 | 核心特点 | 适用场景 | 当前地位与影响力 |
|---|---|---|---|---|
| U-Net | 2015 | 编码器-解码器结构 + 跳跃连接;专为小样本生物医学图像设计 | 2D 显微镜图像、皮肤病变、细胞分割 | 开山之作,所有后续模型的基础 |
| 3D U-Net | 2016 | 将 U-Net 扩展为 3D 卷积,直接处理体积数据 | CT/MRI 器官分割(如肝脏、脑) | ✅ 广泛使用的 3D 分割标准架构 |
| V-Net | 2016 | 引入残差连接的 3D 分割网络,使用 Dice 损失优化 | 前列腺 MRI 分割 | 经典 3D 模型,影响力次于 3D U-Net |
| Attention U-Net | 2018 | 在跳跃连接中加入注意力门控机制,聚焦相关区域 | 小目标或复杂背景分割(如胰腺) | ✅ 热门改进方向,常被集成到其他模型 |
| ResUNet / ResUNet++ | 2017–2019 | 结合残差块(+密集连接/注意力),提升深层训练稳定性与表达能力 | 视网膜血管、皮肤癌、肺部分割 | ✅ 广泛使用的 U-Net 变体 |
| nnU-Net | 2018–2020 | 非新网络,而是全自动框架:自动选择 2D/3D/Cascade U-Net + 预处理 + 训练策略 | 几乎所有医学分割任务 | 事实标准,MICCAI 竞赛常胜军,临床部署首选 |
| MedNeXt | 2023 | 现代 CNN 设计:大卷积核、深度可分离卷积、inverted bottleneck,无注意力 | 多器官、多模态 3D 分割 | 新兴强基线,2024–2025 多篇 SOTA 工作采用,CNN 复兴代表 |
Vision Transformer(ViT)
注:这一部分内容有不理解的地方可以看博主的这篇文章(Transformer讲解):
简介
Vision Transformer(ViT)最初为自然图像分类设计,但自2020年后迅速被引入医学图像分析领域,并催生了一系列专用于分割的架构。
与传统卷积网络不同,ViT 完全摒弃了局部卷积操作,转而依赖自注意力机制对图像全局上下文进行建模。这一特性使其在处理结构复杂、依赖长距离关系的医学分割任务(如多器官协同分割或不规则肿瘤边界刻画)中展现出独特优势。尽管 ViT 对数据量和计算资源要求较高,但其强大的表达能力已推动医学图像分割进入“全局感知”新阶段。
工作流程
在医学图像分割任务中,基于 ViT 的模型(如 UNETR、Swin-Unet、TransUNet)通常遵循以下处理流程:
(1)图像分块(Patch Embedding)
输入的 2D 切片或 3D 体积首先被划分为固定大小的非重叠图像块(例如 16×16 像素的 2D patch 或 8×8×8 的 3Dpatch)。
一个卷积层)转换为一个高维向量,形成序列化的“就是每个图像块通过线性投影(通常token”表示。
(2)位置编码注入
由于 Transformer 本身不具备空间顺序感知能力,系统会为每个 token 添加可学习的位置编码,以保留原始图像中各块的空间位置信息。
(3)Transformer 编码器处理
所有 token 被送入由多个 Transformer 层堆叠而成的编码器。每一层涵盖多头自注意力模块和前馈神经网络,能够动态计算任意两个图像块之间的相关性,从而捕获全局上下文依赖。经过多层处理后,输出一组富含语义和空间关系的特征 token。
(4)多尺度特征提取
为了适配分割任务对多分辨率信息的需求,部分模型(如 UNETR)会从 Transformer 编码器的不同深度抽取中间特征,并将这些特征按分辨率分组,用于后续解码。
(5)解码器融合与上采样
解码器通常采用类似 U-Net 的结构,通过逐步上采样恢复空间分辨率。在每一级上采样后,来自 Transformer 编码器的对应层级特征(经 reshape 还原为特征图)会与当前解码特征融合,常经过拼接或相加实现。
(6)输出分割掩码
经过完整的解码过程,最终特征图凭借一个输出卷积层映射为类别概率图,并经激活函数(如 softmax)生成与输入图像尺寸一致的像素级分割结果。
优缺点
优点
(1)全局上下文建模能力强:自注意力机制允许模型同时考虑图像中任意两个区域的关系,有效捕捉器官整体形状、病灶分布等长距离依赖信息。
(2)结构统一,无需手工设计感受野:不像 CNN 需要堆叠多层才能扩大感受野,ViT 天然具备全图视野,简化了网络设计逻辑。
(3)在大规模素材下性能卓越:当有充足标注数据或可迁移预训练权重时,ViT 在多个医学分割 benchmark(如 BraTS、AMOS)上显著超越传统 CNN。
(4)易于扩展到多模态融合:不同模态(如 T1/T2 MRI - 磁共振)可分别编码为 token 后统一送入 Transformer,天然拥护跨模态交互建模。
(5)推动混合架构创新:ViT 催生了大量 CNN-ViT 混合模型(如 CoTr、TransBTS),结合两者优势,成为当前研究热点。
缺点
(1)对小信息集敏感,易过拟合:医学图像通常标注稀缺,而 ViT 缺乏 CNN 那样的强归纳偏置,在小样本场景下表现不稳定,需依赖迁移学习或数据增强。
(2)计算与内存开销大:自注意力的计算复杂度随图像块数量平方增长,处理高分辨率 2D 切片或 3D 体积时显存消耗巨大,限制实际部署。
(3)局部细节建模能力较弱:纯 ViT 对纹理、边缘等局部特征不够敏感,容易在精细结构(如血管分支、肿瘤毛刺)分割上出现误差。所以CNN-ViT 混合模型的涌现正是为了克服这个问题。
(4)位置编码设计影响性能:如何有效编码 2D/3D 空间位置仍是挑战,尤其在处理不规则扫描或各向异性体素时,标准位置编码可能失效。
(5)训练调参复杂:相比 CNN,ViT 对学习率、优化器、正则化策略更敏感,调优成本高,不利于快速实验迭代。
基于VIT的经典模型
| 模型名称 | 提出年份 | 核心特点 | 适用场景 | 当前地位与影响力 |
|---|---|---|---|---|
| TransUNet | 2021 | 首个将 ViT 作为编码器、U-Net 作为解码器的混合架构;结合 CNN 局部特征与 Transformer 全局建模 | 多器官 2D/3D 分割(如 ACDC、Synapse) | 开创性工作,ViT 医学分割的里程碑 |
| UNETR | 2021 | 纯 Transformer 编码器 + 卷积解码器;从 ViT 不同层提取多尺度特征用于上采样融合 | 3D 医学图像(如脑肿瘤、腹部器官) | ✅ 广泛使用的纯 ViT 分割基线,MONAI 官方支持 |
| Swin-Unet | 2021 | 基于 Swin Transformer(窗口注意力 + 移动窗口机制),引入层次化特征图结构 | 高分辨率 2D/3D 分割(如病理切片、CT) | ✅ 极受欢迎,兼顾效率与性能 |
| TransBTS | 2021 | 针对脑肿瘤分割设计,融合 CNN 提取局部细节 + ViT 建模全局上下文 | BraTS 脑肿瘤 MRI 分割 | 任务专用 SOTA 模型 |
| CoTr | 2021 | 在 Transformer 中嵌入卷积操作,增强局部感知能力 | 多器官 3D 分割 | ✅ 代表性 CNN-ViT 混合模型 |
| nnFormer | 2022 | 类似 nnU-Net 的自动化思想,骨干为 Swin Transformer;承受多尺度特征交互 | 通用 3D 医学分割 | 高性能框架 |
| UNETR++ | 2023 | 引入深度监督、高效注意力机制(如 axial attention)和更优 skip connection 设计,显著提升分割精度与边界质量 | 大规模 3D 多器官分割(如 AMOS、MSD) | ⭐⭐ 当前 ViT 分割 SOTA 代表之一,MICCAI 2023 最佳论文候选 |
| SegFormer (Medical Adaptation) | 2022–2023 | 轻量级分层 ViT + MLP 解码器;无位置编码,计算高效 | 实时或资源受限场景下的 2D 分割 | 新兴轻量选择 |
Mamba
简介
Mamba 是一种基于选择性状态空间模型(Selective State Space Model, SSM)的新型序列建模架构,最初于 2023 年底在自然语言处理领域提出,因其兼具 Transformer 的长程建模能力和 CNN 的线性计算效率而迅速引起关注。2024 年起,研究者开始将 Mamba 引入计算机视觉,并很快拓展到医学图像分割任务中。
与 CNN 依赖局部卷积、ViT 依赖全局注意力不同,Mamba 通过动态选择输入相关状态的方式,在保持线性时间复杂度的同时完成对关键区域的智能聚焦。这一特性使其特别适合处理高分辨率、结构复杂的医学图像,在多个公开数据集上已展现出超越 ViT 甚至媲美先进 CNN 的潜力,被视为下一代医学图像分割骨干网络的重要候选。
工作流程
在医学图像分割任务中,基于 Mamba 的模型(如 VM-UNet、SegMamba、M-UNet)通常遵循以下处理流程:
(1)输入嵌入与序列化
原始 2D 切片或 3D 体积先通过一个浅层卷积 stem 模块提取初步特征,然后按特定顺序(如逐行、Zigzag 扫描或 Hilbert 曲线)将空间特征图展平为一维token序列,以便 Mamba 处理。
(2)位置与通道混合
为了保留空间结构信息,部分模型会引入可学习的位置编码,或在序列化前采用 2D-aware 扫描策略(如双向扫描),确保相邻像素在序列中保持邻近。
(3)Mamba 块编码
序列 token 被送入由多个 Mamba 块堆叠而成的编码器。每个 Mamba 块包含一个选择性 SSM 模块和一个门控多层感知机(MLP)。SSM 能根据当前输入动态调整状态转移,只对重要信息进行长程传播,从而搭建“内容感知”的全局建模。
(4)多尺度特征抽取
与 U-Net 类似,模型会在 Mamba 编码器的不同深度抽取中间特征,并将其 reshape 回 2D/3D 空间形式,形成多分辨率特征金字塔。
(5)解码器上采样融合
解码器通常采用标准 U-Net 风格结构,通过转置卷积或插值逐步上采样。在每一级,来自编码器对应层级的 Mamba 特征通过跳跃连接拼接进来,并经卷积层融合,逐步恢复细节。
(6)输出分割掩码
最终,高分辨率特征图通过一个输出卷积层映射为类别概率图,并经 sigmoid 或 softmax 激活生成与输入尺寸一致的像素级分割结果。
优缺点
优点
(1)线性计算复杂度:Mamba 的推理时间和内存消耗与图像大小呈线性关系,远优于 ViT 的平方复杂度,特别适合处理高分辨率 CT/MRI 等大尺寸医学图像。
(2)高效长程建模能力:通过选择性状态机制,Mamba 能动态关注与当前任务相关的远距离区域,在保持效率的同时实现类似 Transformer 的全局理解。
(3)对小数据更友好:相比 ViT,Mamba 具有更强的归纳偏置(源于 SSM 的结构先验),在标注有限的医学场景下训练更稳定,泛化能力更强。
(4)硬件友好设计:Mamba 的核心操作经过 CUDA 优化,能充分利用 GPU 内存带宽,在实际运行中比理论复杂度显示的更快。
(5)新兴潜力巨大:作为 2024–2025 年最热门的研究方向之一,Mamba 正快捷迭代,已有多个医学专用变体证明其在 ACDC、Synapse、BraTS 等 benchmark 上达到或接近 SOTA。
缺点
(1)空间结构依赖序列化策略:将 2D/3D 图像展平为 1D 序列会损失部分空间邻接关系,若扫描方式设计不当(如简单逐行),可能影响分割精度。
(2)生态尚不成熟:缺乏统一的标准实现、大规模预训练权重和成熟的调参经验,工程部署门槛较高。
(3)理论理解有限:Mamba 在视觉任务中的工作机制仍在探索中,如何最优地结合空间先验、多尺度建模等仍是开放问题。
(4)社区拥护较弱:相比 CNN 和 ViT,开源代码库、教程和预训练模型较少,复现和调试成本较高。
(5)尚未经过大规模临床验证:目前多数成果仍停留在论文和公开数据集阶段,尚未像 nnU-Net 那样广泛应用于真实医疗系统。
基于Mamba的经典模型
| 模型名称 | 提出年份 | 核心特点 | 适用场景 | 当前地位与影响力 |
|---|---|---|---|---|
| VM-UNet | 2024 | 首个将 Vision Mamba 引入 U-Net 框架的医学分割模型;采用双向扫描保留 2D 空间结构 | 2D/3D 多器官分割(如 Synapse、ACDC) | 开创性工作,Mamba 医学分割的里程碑 |
| SegMamba | 2024 | 设计专用 3D Mamba 块,支持体素级序列建模;引入深度监督提升边界精度 | 3D 医学图像(如腹部 CT、脑 MRI) | ✅ 当前最广泛复现的 Mamba 分割模型之一 |
| M-UNet | 2024 | 轻量级设计,结合 Mamba 编码器与高效解码器;强调推理速度与精度平衡 | 实时或资源受限场景下的 2D 分割 | 新兴实用模型,适合部署探索 |
| U-Mamba | 2024 | 在 U-Net 跳跃连接中嵌入 Mamba 模块,增强多尺度特征交互;兼容 2D/3D 输入 | 通用医学图像分割 | ✅ 高引用率,GitHub 星数增长迅速 |
| MedMamba | 2025 | 针对医学图像特性优化 SSM 参数,引入各向异性扫描策略处理非均匀体素 | 临床真实世界数据(如低质量 MRI) | 最新进展,MICCAI 2025 接收论文 |
| Mamba-SSM(通用视觉适配) | 2024 | 非专为医学设计,但被多个研究组用于医学分割基线实验 | 初步探索性研究 | 作为基础骨干运用,非专用模型 |
三大架构的差异对比
| 对比维度 | CNN(以 U-Net/nnU-Net 为例) | Vision Transformer(以 UNETR/Swin-Unet 为例) | Mamba(以 VM-UNet/SegMamba 为例) |
|---|---|---|---|
| 输入表示 | 原始图像直接作为 2D/3D 张量输入;通过卷积 stem 提取初始特征 | 图像被划分为固定大小的非重叠 patch(如 16×16),每个 patch 线性嵌入为 token | 图像经浅层卷积提取特征后,按特定扫描策略(如逐行、Zigzag、双向)展平为 1D token 序列 |
| 空间结构保留方式 | 天然保持 2D/3D 网格结构;卷积执行隐式利用局部邻域关系 | 依赖可学习的位置编码(Positional Encoding)显式注入空间顺序 | 依赖序列化扫描策略(如 Hilbert 曲线、轴向双向扫描)隐式保留空间邻接性 |
| 核心特征提取机制 | 局部卷积核滑动,逐层堆叠扩大感受野;权重共享,参数高效 | 自注意力机制计算所有 token 两两相关性;全局交互,无归纳偏置 | 选择性状态空间模型(SSM):根据输入动态更新隐藏状态,实现内容感知的长程传播 |
| 上下文建模范式 | 局部 → 全局渐进式:通过深层堆叠间接捕获远距离依赖,但本质仍是局部操作 | 全局并行建模:每层自注意力直接建模任意两个 patch 的关系 | 选择性长程建模:SSM 动态决定哪些信息需长距离传递,兼顾效率与智能关注 |
| 计算复杂度 | O(k2⋅HW)(k 为卷积核大小),与图像尺寸近似线性 | O((HW)2)(H×W 为 patch 数量),高分辨率下显存爆炸 | O(HW),线性复杂度,硬件优化后实际运行效率高 |
| 多尺度特征生成 | 通过池化/上采样自然形成层级特征金字塔;跳跃连接直接传递同尺度特征 | 从 Transformer 编码器不同深度抽取 token,reshape 为多分辨率特征图 | 在 Mamba 编码器不同阶段截取序列特征,逆序列化后形成多尺度空间特征 |
| 解码器设计 | 对称 U-Net 结构:转置卷积 + 跳跃连接拼接,强依赖空间对齐 | 卷积或 MLP 解码器:将 Transformer 特征图与上采样结果融合,常需额外对齐模块 | 通常沿用 U-Net 风格解码器,跳跃连接来自 Mamba 编码器的逆序列化特征 |
| 边界细节恢复能力 | 强(得益于跳跃连接保留原始高频信息) | 中等(纯 ViT 易丢失细节,混合模型如 Swin-Unet 有所改善) | 中到强(依赖扫描策略;双向 Mamba 可提升边界连续性) |
| 典型适用场景 | 小样本、高精度临床部署、资源受限环境 | 大规模标注资料、繁琐结构全局建模(如多器官协同) | 高分辨率 3D 图像、需长程建模但算力有限的任务 |
补充:
CNN 的优势在于“结构即先验”——其归纳偏置与医学图像高度契合;
ViT 的优势在于“数据即先验”——在大数据下借助全局注意力学习最优表示;
Mamba 的优势在于“动态选择性”——在保持线性效率的同时,只对重要信息做长程传播。
浙公网安备 33010602011771号