在深度学习驱动下,医学图像分割取得了显著进展。当前,卷积神经网络(CNN)、视觉Transformer(ViT) 和 Mamba(状态空间模型) 被视为三种最具代表性的架构范式。它们分别代表了局部建模、全局注意力和高效序列建模的不同思路。本文将框架介绍这三类架构在医学图像分割中的工作流程、各自优缺点,并对比它们的本质差异。

CNN

简介

卷积神经网络(CNN)是医学图像分割领域最早被广泛采用、也是至今最为成熟和可靠的深度学习架构。自2015年 U-Net 模型提出以来,基于 CNN 的途径迅速成为该领域的黄金标准,并在大量临床任务中展现出卓越的性能,包括器官分割、肿瘤定位、血管提取等。

工作流程

在典型的医学图像分割任务中,CNN(尤其是 U-Net 及其变体)通常遵循以下工作流程:

(1)输入预处理

原始医学图像(如 CT、MRI 切片或 3D 体积)首先经过标准化处理,例如强度归一化、裁剪或重采样,以统一尺寸和灰度分布,便于网络训练。

(2)编码器特征提取

图像被送入编码器路径,该路径由多个“卷积块”堆叠而成。每个卷积块通常具备两层卷积操作(使用小尺寸卷积核,如 3×3),后接非线性激活函数(如 ReLU)和批量归一化。每搞定一个卷积块后,通过下采样操作(通常是 2×2 最大池化)将特征图的空间分辨率减半,同时通道数翻倍。这一过程重复多次(常见为 4–5 次),逐步提取从边缘、纹理到高级语义的多层次特征。

(3)跳跃连接保存细节

在每次下采样之前,当前分辨率下的特征图会被复制并暂存。这些特征图将在解码器对应层级被重新引入,用于弥补上采样过程中丢失的空间细节,这对于精确恢复器官或病灶的边界至关重要。

(4)瓶颈层处理

在编码器最深层(即分辨率最低处),特征图进入一个“瓶颈”模块,继续进行卷积操作以进一步融合全局上下文信息,但不再进行下采样。

(5)解码器上采样重建

解码器路径与编码器对称。它从瓶颈层开始,逐级执行上采样操作(通常使用转置卷积或插值),将特征图分辨率逐步恢复至原始输入大小。在每次上采样之后,网络会将来自编码器对应层级的跳跃连接特征图拼接(concatenate)进来,再通过若干卷积层融合多尺度信息。

(6)输出分割掩码

经过完整的解码过程后,最后一层通常是一个 1×1 卷积,将高维特征映射为与类别数相同的通道数,再通过 softmax 或 sigmoid 激活函数生成每个像素属于目标类别的概率图,最终输出二值或多类分割结果。

优缺点

优点

(1)局部建模能力强:CNN 的卷积操作天然擅长捕捉医学图像中常见的局部结构、纹理和边界信息,这与 CT、MRI 等模态的成像特性高度匹配。

(2)对小数据友好:得益于其强归纳偏置和参数共享机制,CNN 在标注样本有限的医学场景下仍能实用训练,不易过拟合。

(3)训练稳定且收敛快:相比其他复杂架构,CNN 优化过程更平滑,超参数调优相对简单,适合快捷迭代实验。

(4)计算效率高:推理速度快、显存占用低,便于部署到医院服务器、移动设备或嵌入式系统中。

缺点

(1)感受野有限,难以建模长距离依赖:即使经过深层堆叠扩大感受野,CNN 仍主要依赖局部邻域进行预测,无法有效利用图像中相距较远区域之间的全局关系(如整个器官的形状一致性)。

(2)边界定位精度受限:由于多次下采样导致空间信息损失,即使有跳跃连接,细小结构或模糊边界的分割仍可能出现误差。

(3)缺乏动态适应能力:卷积核是静态的,无法根据输入内容自适应调整关注区域,在面对形态差异大或结构复杂的病灶时灵活性不足。

(4)平移不变性过强:虽然有助于泛化,但也削弱了模型对精确空间位置的敏感性,可能导致细微错位。

(5)结构设计依赖经验:网络深度、卷积核大小、连接方式等需人工设计或大量试错,自动化程度不如近年兴起的一些端到端架构。

基于CNN架构的经典模型

模型名称提出年份核心特点适用场景当前地位与影响力
U-Net2015编码器-解码器结构 + 跳跃连接;专为小样本生物医学图像设计2D 显微镜图像、皮肤病变、细胞分割 开山之作,所有后续模型的基础
3D U-Net2016将 U-Net 扩展为 3D 卷积,直接处理体积数据CT/MRI 器官分割(如肝脏、脑)✅ 广泛使用的 3D 分割标准架构
V-Net2016引入残差连接的 3D 分割网络,使用 Dice 损失优化前列腺 MRI 分割 经典 3D 模型,影响力次于 3D U-Net
Attention U-Net2018在跳跃连接中加入注意力门控机制,聚焦相关区域小目标或复杂背景分割(如胰腺)✅ 热门改进方向,常被集成到其他模型
ResUNet / ResUNet++2017–2019结合残差块(+密集连接/注意力),提升深层训练稳定性与表达能力视网膜血管、皮肤癌、肺部分割✅ 广泛使用的 U-Net 变体
nnU-Net2018–2020非新网络,而是全自动框架:自动选择 2D/3D/Cascade U-Net + 预处理 + 训练策略几乎所有医学分割任务 事实标准,MICCAI 竞赛常胜军,临床部署首选
MedNeXt2023现代 CNN 设计:大卷积核、深度可分离卷积、inverted bottleneck,无注意力多器官、多模态 3D 分割 新兴强基线,2024–2025 多篇 SOTA 工作采用,CNN 复兴代表

Vision Transformer(ViT)

注:这一部分内容有不理解的地方可以看博主的这篇文章(Transformer讲解):

https://blog.csdn.net/qq_73038863/article/details/152115310?fromshare=blogdetail&sharetype=blogdetail&sharerId=152115310&sharerefer=PC&sharesource=qq_73038863&sharefrom=from_link

简介

Vision Transformer(ViT)最初为自然图像分类设计,但自2020年后迅速被引入医学图像分析领域,并催生了一系列专用于分割的架构。

与传统卷积网络不同,ViT 完全摒弃了局部卷积操作,转而依赖自注意力机制对图像全局上下文进行建模。这一特性使其在处理结构复杂、依赖长距离关系的医学分割任务(如多器官协同分割或不规则肿瘤边界刻画)中展现出独特优势。尽管 ViT 对数据量和计算资源要求较高,但其强大的表达能力已推动医学图像分割进入“全局感知”新阶段。

工作流程

在医学图像分割任务中,基于 ViT 的模型(如 UNETR、Swin-Unet、TransUNet)通常遵循以下处理流程:

(1)图像分块(Patch Embedding)

输入的 2D 切片或 3D 体积首先被划分为固定大小的非重叠图像块(例如 16×16 像素的 2D patch 或 8×8×8 的 3Dpatch)。

一个卷积层)转换为一个高维向量,形成序列化的“就是每个图像块通过线性投影(通常token”表示。

(2)位置编码注入

由于 Transformer 本身不具备空间顺序感知能力,系统会为每个 token 添加可学习的位置编码,以保留原始图像中各块的空间位置信息。

(3)Transformer 编码器处理

所有 token 被送入由多个 Transformer 层堆叠而成的编码器。每一层涵盖多头自注意力模块和前馈神经网络,能够动态计算任意两个图像块之间的相关性,从而捕获全局上下文依赖。经过多层处理后,输出一组富含语义和空间关系的特征 token。

(4)多尺度特征提取

为了适配分割任务对多分辨率信息的需求,部分模型(如 UNETR)会从 Transformer 编码器的不同深度抽取中间特征,并将这些特征按分辨率分组,用于后续解码。

(5)解码器融合与上采样

解码器通常采用类似 U-Net 的结构,通过逐步上采样恢复空间分辨率。在每一级上采样后,来自 Transformer 编码器的对应层级特征(经 reshape 还原为特征图)会与当前解码特征融合,常经过拼接或相加实现。

(6)输出分割掩码

经过完整的解码过程,最终特征图凭借一个输出卷积层映射为类别概率图,并经激活函数(如 softmax)生成与输入图像尺寸一致的像素级分割结果。

优缺点

优点

(1)全局上下文建模能力强:自注意力机制允许模型同时考虑图像中任意两个区域的关系,有效捕捉器官整体形状、病灶分布等长距离依赖信息。

(2)结构统一,无需手工设计感受野:不像 CNN 需要堆叠多层才能扩大感受野,ViT 天然具备全图视野,简化了网络设计逻辑。

(3)在大规模素材下性能卓越:当有充足标注数据或可迁移预训练权重时,ViT 在多个医学分割 benchmark(如 BraTS、AMOS)上显著超越传统 CNN。

(4)易于扩展到多模态融合:不同模态(如 T1/T2 MRI - 磁共振)可分别编码为 token 后统一送入 Transformer,天然拥护跨模态交互建模。

(5)推动混合架构创新:ViT 催生了大量 CNN-ViT 混合模型(如 CoTr、TransBTS),结合两者优势,成为当前研究热点。

缺点

(1)对小信息集敏感,易过拟合:医学图像通常标注稀缺,而 ViT 缺乏 CNN 那样的强归纳偏置,在小样本场景下表现不稳定,需依赖迁移学习或数据增强。

(2)计算与内存开销大:自注意力的计算复杂度随图像块数量平方增长,处理高分辨率 2D 切片或 3D 体积时显存消耗巨大,限制实际部署。

(3)局部细节建模能力较弱:纯 ViT 对纹理、边缘等局部特征不够敏感,容易在精细结构(如血管分支、肿瘤毛刺)分割上出现误差。所以CNN-ViT 混合模型的涌现正是为了克服这个问题。

(4)位置编码设计影响性能:如何有效编码 2D/3D 空间位置仍是挑战,尤其在处理不规则扫描或各向异性体素时,标准位置编码可能失效。

(5)训练调参复杂:相比 CNN,ViT 对学习率、优化器、正则化策略更敏感,调优成本高,不利于快速实验迭代。

基于VIT的经典模型

模型名称提出年份核心特点适用场景当前地位与影响力
TransUNet2021首个将 ViT 作为编码器、U-Net 作为解码器的混合架构;结合 CNN 局部特征与 Transformer 全局建模多器官 2D/3D 分割(如 ACDC、Synapse) 开创性工作,ViT 医学分割的里程碑
UNETR2021纯 Transformer 编码器 + 卷积解码器;从 ViT 不同层提取多尺度特征用于上采样融合3D 医学图像(如脑肿瘤、腹部器官)✅ 广泛使用的纯 ViT 分割基线,MONAI 官方支持
Swin-Unet2021基于 Swin Transformer(窗口注意力 + 移动窗口机制),引入层次化特征图结构高分辨率 2D/3D 分割(如病理切片、CT)✅ 极受欢迎,兼顾效率与性能
TransBTS2021针对脑肿瘤分割设计,融合 CNN 提取局部细节 + ViT 建模全局上下文BraTS 脑肿瘤 MRI 分割 任务专用 SOTA 模型
CoTr2021在 Transformer 中嵌入卷积操作,增强局部感知能力多器官 3D 分割✅ 代表性 CNN-ViT 混合模型
nnFormer2022类似 nnU-Net 的自动化思想,骨干为 Swin Transformer;承受多尺度特征交互通用 3D 医学分割 高性能框架
UNETR++2023引入深度监督、高效注意力机制(如 axial attention)和更优 skip connection 设计,显著提升分割精度与边界质量大规模 3D 多器官分割(如 AMOS、MSD)⭐⭐ 当前 ViT 分割 SOTA 代表之一,MICCAI 2023 最佳论文候选
SegFormer (Medical Adaptation)2022–2023轻量级分层 ViT + MLP 解码器;无位置编码,计算高效实时或资源受限场景下的 2D 分割 新兴轻量选择

Mamba

简介

Mamba 是一种基于选择性状态空间模型(Selective State Space Model, SSM)的新型序列建模架构,最初于 2023 年底在自然语言处理领域提出,因其兼具 Transformer 的长程建模能力和 CNN 的线性计算效率而迅速引起关注。2024 年起,研究者开始将 Mamba 引入计算机视觉,并很快拓展到医学图像分割任务中。

与 CNN 依赖局部卷积、ViT 依赖全局注意力不同,Mamba 通过动态选择输入相关状态的方式,在保持线性时间复杂度的同时完成对关键区域的智能聚焦。这一特性使其特别适合处理高分辨率、结构复杂的医学图像,在多个公开数据集上已展现出超越 ViT 甚至媲美先进 CNN 的潜力,被视为下一代医学图像分割骨干网络的重要候选。

工作流程

在医学图像分割任务中,基于 Mamba 的模型(如 VM-UNet、SegMamba、M-UNet)通常遵循以下处理流程:

(1)输入嵌入与序列化

原始 2D 切片或 3D 体积先通过一个浅层卷积 stem 模块提取初步特征,然后按特定顺序(如逐行、Zigzag 扫描或 Hilbert 曲线)将空间特征图展平为一维token序列,以便 Mamba 处理。

(2)位置与通道混合

为了保留空间结构信息,部分模型会引入可学习的位置编码,或在序列化前采用 2D-aware 扫描策略(如双向扫描),确保相邻像素在序列中保持邻近。

(3)Mamba 块编码

序列 token 被送入由多个 Mamba 块堆叠而成的编码器。每个 Mamba 块包含一个选择性 SSM 模块和一个门控多层感知机(MLP)。SSM 能根据当前输入动态调整状态转移,只对重要信息进行长程传播,从而搭建“内容感知”的全局建模。

(4)多尺度特征抽取

与 U-Net 类似,模型会在 Mamba 编码器的不同深度抽取中间特征,并将其 reshape 回 2D/3D 空间形式,形成多分辨率特征金字塔。

(5)解码器上采样融合

解码器通常采用标准 U-Net 风格结构,通过转置卷积或插值逐步上采样。在每一级,来自编码器对应层级的 Mamba 特征通过跳跃连接拼接进来,并经卷积层融合,逐步恢复细节。

(6)输出分割掩码

最终,高分辨率特征图通过一个输出卷积层映射为类别概率图,并经 sigmoid 或 softmax 激活生成与输入尺寸一致的像素级分割结果。

优缺点

优点

(1)线性计算复杂度:Mamba 的推理时间和内存消耗与图像大小呈线性关系,远优于 ViT 的平方复杂度,特别适合处理高分辨率 CT/MRI 等大尺寸医学图像。

(2)高效长程建模能力:通过选择性状态机制,Mamba 能动态关注与当前任务相关的远距离区域,在保持效率的同时实现类似 Transformer 的全局理解。

(3)对小数据更友好:相比 ViT,Mamba 具有更强的归纳偏置(源于 SSM 的结构先验),在标注有限的医学场景下训练更稳定,泛化能力更强。

(4)硬件友好设计:Mamba 的核心操作经过 CUDA 优化,能充分利用 GPU 内存带宽,在实际运行中比理论复杂度显示的更快。

(5)新兴潜力巨大:作为 2024–2025 年最热门的研究方向之一,Mamba 正快捷迭代,已有多个医学专用变体证明其在 ACDC、Synapse、BraTS 等 benchmark 上达到或接近 SOTA。

缺点

(1)空间结构依赖序列化策略:将 2D/3D 图像展平为 1D 序列会损失部分空间邻接关系,若扫描方式设计不当(如简单逐行),可能影响分割精度。

(2)生态尚不成熟:缺乏统一的标准实现、大规模预训练权重和成熟的调参经验,工程部署门槛较高。

(3)理论理解有限:Mamba 在视觉任务中的工作机制仍在探索中,如何最优地结合空间先验、多尺度建模等仍是开放问题。

(4)社区拥护较弱:相比 CNN 和 ViT,开源代码库、教程和预训练模型较少,复现和调试成本较高。

(5)尚未经过大规模临床验证:目前多数成果仍停留在论文和公开数据集阶段,尚未像 nnU-Net 那样广泛应用于真实医疗系统。

基于Mamba的经典模型

模型名称提出年份核心特点适用场景当前地位与影响力
VM-UNet2024首个将 Vision Mamba 引入 U-Net 框架的医学分割模型;采用双向扫描保留 2D 空间结构2D/3D 多器官分割(如 Synapse、ACDC) 开创性工作,Mamba 医学分割的里程碑
SegMamba2024设计专用 3D Mamba 块,支持体素级序列建模;引入深度监督提升边界精度3D 医学图像(如腹部 CT、脑 MRI)✅ 当前最广泛复现的 Mamba 分割模型之一
M-UNet2024轻量级设计,结合 Mamba 编码器与高效解码器;强调推理速度与精度平衡实时或资源受限场景下的 2D 分割 新兴实用模型,适合部署探索
U-Mamba2024在 U-Net 跳跃连接中嵌入 Mamba 模块,增强多尺度特征交互;兼容 2D/3D 输入通用医学图像分割✅ 高引用率,GitHub 星数增长迅速
MedMamba2025针对医学图像特性优化 SSM 参数,引入各向异性扫描策略处理非均匀体素临床真实世界数据(如低质量 MRI) 最新进展,MICCAI 2025 接收论文
Mamba-SSM(通用视觉适配)2024非专为医学设计,但被多个研究组用于医学分割基线实验初步探索性研究 作为基础骨干运用,非专用模型

三大架构的差异对比

对比维度CNN(以 U-Net/nnU-Net 为例)Vision Transformer(以 UNETR/Swin-Unet 为例)Mamba(以 VM-UNet/SegMamba 为例)
输入表示原始图像直接作为 2D/3D 张量输入;通过卷积 stem 提取初始特征图像被划分为固定大小的非重叠 patch(如 16×16),每个 patch 线性嵌入为 token图像经浅层卷积提取特征后,按特定扫描策略(如逐行、Zigzag、双向)展平为 1D token 序列
空间结构保留方式天然保持 2D/3D 网格结构;卷积执行隐式利用局部邻域关系依赖可学习的位置编码(Positional Encoding)显式注入空间顺序依赖序列化扫描策略(如 Hilbert 曲线、轴向双向扫描)隐式保留空间邻接性
核心特征提取机制局部卷积核滑动,逐层堆叠扩大感受野;权重共享,参数高效自注意力机制计算所有 token 两两相关性;全局交互,无归纳偏置选择性状态空间模型(SSM):根据输入动态更新隐藏状态,实现内容感知的长程传播
上下文建模范式局部 → 全局渐进式:通过深层堆叠间接捕获远距离依赖,但本质仍是局部操作全局并行建模:每层自注意力直接建模任意两个 patch 的关系选择性长程建模:SSM 动态决定哪些信息需长距离传递,兼顾效率与智能关注
计算复杂度O(k2⋅HW)(k 为卷积核大小),与图像尺寸近似线性O((HW)2)(H×W 为 patch 数量),高分辨率下显存爆炸O(HW),线性复杂度,硬件优化后实际运行效率高
多尺度特征生成通过池化/上采样自然形成层级特征金字塔;跳跃连接直接传递同尺度特征从 Transformer 编码器不同深度抽取 token,reshape 为多分辨率特征图在 Mamba 编码器不同阶段截取序列特征,逆序列化后形成多尺度空间特征
解码器设计对称 U-Net 结构:转置卷积 + 跳跃连接拼接,强依赖空间对齐卷积或 MLP 解码器:将 Transformer 特征图与上采样结果融合,常需额外对齐模块通常沿用 U-Net 风格解码器,跳跃连接来自 Mamba 编码器的逆序列化特征
边界细节恢复能力强(得益于跳跃连接保留原始高频信息)中等(纯 ViT 易丢失细节,混合模型如 Swin-Unet 有所改善)中到强(依赖扫描策略;双向 Mamba 可提升边界连续性)
典型适用场景小样本、高精度临床部署、资源受限环境大规模标注资料、繁琐结构全局建模(如多器官协同)高分辨率 3D 图像、需长程建模但算力有限的任务

补充:

CNN 的优势在于“结构即先验”——其归纳偏置与医学图像高度契合;

ViT 的优势在于“数据即先验”——在大数据下借助全局注意力学习最优表示;

Mamba 的优势在于“动态选择性”——在保持线性效率的同时,只对重要信息做长程传播。