SAM系列论文浅析
SAM系列演进:从通用分割工具到视觉概念理解模型的进化之路
摘要
SAM(Segment Anything Model)系列代表了计算机视觉基础模型从"专用工具"向"通用感知系统"的演进。本文从视觉语言模型的角度深入分析SAM系列三代模型的技术演进,重点剖析SAM3如何通过引入可提示概念分割任务,实现从视觉提示到概念提示的范式转变,标志着视觉分割模型向真正具备语义理解能力的视觉语言模型迈进。
1. SAM系列演进:从视觉提示到概念理解
1.1 SAM 1(2023年):可提示分割的奠基者
核心贡献:
- 建立了可提示分割(Promptable Segmentation)的基础范式
- 采用图像编码器-提示编码器-掩码解码器的三段式架构
架构组成:
- 图像编码器:基于预训练的ViT-H
- 提示编码器:处理各种提示类型
- 掩码解码器:轻量级,组合图像和提示嵌入预测输出掩码
VLM视角分析:
- 理论上支持文本提示,但文本处理能力非常有限
- 论文中明确指出该功能"未被完全开发"
- 文本更多是被映射为一种视觉查询向量,而非真正的概念理解
1.2 SAM 2(2024年):视频时空统一分割的拓展者
核心创新:
- 将能力扩展至视频领域
- 实现统一框架下的图像与视频分割
- 引入记忆机制以保持对象在视频帧间的一致性
技术特点:
- 流式推理架构
- 处理视频序列并保持对象身份的一致性
VLM视角分析:
- 在概念理解方面并未取得实质性进展
- 创新主要体现在时空维度的扩展
- 一致性基于视觉特征而非语义概念
1.3 SAM 3(2025年):概念理解时代的开创者
核心突破:
- 实现从"在哪里分割"到"分割什么"的范式转变
- 引入可提示概念分割(Promptable Concept Segmentation, PCS)任务
技术定位:
- 从被动执行工具转变为具备初步视觉概念理解能力的主动感知系统
- 实现真正的视觉-语言融合
2. SAM3核心创新:视觉语言模型的深度融合
2.1 可提示概念分割(PCS)任务定义
核心能力要求:
- 概念理解:将文本或示例图像映射到抽象的视觉概念
- 实例定位:在复杂场景中找出所有匹配该概念的实例
- 精准分割:为每个实例生成像素级精度的掩码
数学形式化定义:
给定图像I或视频序列V,模型接收概念提示C(短名词短语如"红色苹果"、图像范例或两者组合),输出所有满足C的实例掩码集合M,并保持视频中实例的身份一致性。
M = SAM3(I 或 V, C), C ∈ {文本短语, 图像范例, 混合提示}
与传统任务的区别:
- VS SAM1/SAM2的PVS任务:PVS需用户通过点、框明确"指哪里",PCS则允许用户直接定义"分什么"
- VS 指代分割:指代分割针对单个特定实例,PCS要求找出所有匹配实例,且支持开放词汇
2.2 对齐的感知编码器(Perception Encoder, PE)
核心功能:
- 经过54亿图像-文本对预训练的视觉-语言对齐骨干
- 采用窗口注意力与全局注意力混合机制
技术细节:
- 文本编码支持最大32 token的短语
- 通过跨模态注意力与视觉特征严格对齐
- 将抽象属性(如"红色")映射到具体像素
2.3 Presence Token机制:识别与定位的解耦设计
设计优势:
- 提升识别精度:Presence Token专注于全局上下文,避免局部定位干扰
- 减少假阳性:当概念不存在时,Presence Token得分接近0,直接抑制所有无关输出
实现方式:
- 引入可学习的全局Presence Token
- 专责预测概念存在的概率p(NP is present)
- 目标查询仅负责在概念存在时定位实例
- 最终实例得分 = score_存在 × score_定位
2.4 多专家歧义处理机制
应对问题:
- PCS任务固有的概念模糊性(如"小窗户"的"小"是主观判断)
实现机制:
- 训练多个并行的"专家"
- 每个专家学习对同一名词短语的不同合理解释
- 推理时采用"赢家通吃"策略选择最优专家输出
2.5 视频时空一致性增强
增强策略:
- 时间歧义消除:计算掩码在时间窗口内与检测结果的匹配一致性
- 记忆增强:通过内存库存储历史特征,确保目标即使被短暂遮挡也能恢复正确身份
3. 数据引擎与训练策略
3.1 人机协同数据引擎
四阶段迭代:
- 阶段1:纯人工验证——生成基础数据集
- 阶段2:人机协同——引入AI验证器提升标注效率
- 阶段3:规模与领域扩展——覆盖多样化数据
- 阶段4:视频标注——生成高质量视频数据集
3.2 数据集规模
最终生成的数据集规模令人印象深刻:包含400万独特概念和5200万掩码的高质量数据集,以及包含3800万概念和14亿掩码的合成数据集。SA-Co数据集包含214K独特概念、124K图像和1.7K视频,概念覆盖范围能达到现有基准的50倍以上。
4. 性能表现与技术优势
4.1 图像PCS任务性能
在LVIS数据集上,SAM3的零样本掩码AP达到47.0,显著超越此前最佳模型的38.5。在新的SA-Co/Gold基准上,SAM3的CGF1分数达到65.0,是最强基线OWLv2(34.3)的1.9倍,且达到人类性能下限的88%。
4.2 视频PCS任务性能
在视频对象分割(VOS)任务上,SAM3相比SAM2有显著提升,能够高质量地完成视频中多目标的长期追踪。在SA-Co/VEval上pHOTA达53.9,接近人类水平(68.0)的79%。
4.3 推理效率
在H200 GPU上,处理含100多个实体的单张图像只需要30ms的时间。在视频任务中,推理延迟随着目标数量线性增加,能在约5个并发目标的情况下维持接近实时的性能。
5. 结论
SAM系列的发展轨迹清晰地展示了计算机视觉基础模型从专用工具到通用感知系统的演进路径。SAM1奠定了可提示分割的基础范式,SAM2将这一范式扩展至视频领域,而SAM3通过引入可提示概念分割(PCS)任务,实现了从"在哪里分割"到"分割什么"的范式转变。
从技术视角看,SAM3的成功在于将SAM系列的分割精度、DINOv2系列的视觉表征能力和CLIP/GLIP系列的视觉-语言对齐技术进行了深度的、原生的融合。这一融合创造了一个既能"听懂人话"又能"精准勾勒"的通用视觉感知系统,为AI在更广泛场景中理解和交互视觉世界奠定了坚实基础。