Jasmine论文浅读(自监督深度估计SOTA)
Jasmine: Harnessing Diffusion Prior for Self-Supervised Depth Estimation 论文浅读
1. 研究背景与核心问题
1.1 背景介绍
单目深度估计是计算机视觉中的一项基础任务,旨在从单张图片中推断出每个像素点的深度信息。监督学习方法虽然性能强大,但严重依赖通过激光雷达(LiDAR)等设备获取的高精度深度标注数据,这些数据不仅昂贵,且难以大规模获取。
因此,自监督单目深度估计(Self-Supervised Monocular Depth Estimation, SSMDE)应运而生,它仅需使用单目视频序列,通过重投影损失进行自我监督学习,展现出巨大的潜力。
1.2 核心问题
尽管SSMDE避免了标注成本,但其依赖的重投影损失存在根本性缺陷。在处理遮挡、弱纹理区域和光照变化等复杂场景时,重投影损失会产生错误且充满噪声的监督信号。这导致模型预测出的深度图存在严重的模糊、细节丢失和物体边缘退化等问题。
与此同时,以Stable Diffusion(SD)为代表的大规模扩散模型展现了强大的视觉先验能力,能够生成细节极其丰富的图像。已有工作(如Marigold)证明,通过有监督微调,SD可以显著提升深度估计的细节和泛化能力。
这就引出了一个核心问题:能否将Stable Diffusion的强大视觉先验,注入到无需标注的自监督框架中,来解决SSMDE的顽疾?
答案是非常困难。直接使用自监督的"脏"信号(重投影损失)去微调SD,会迅速污染和破坏SD模型珍贵的预训练先验,导致训练在早期就崩溃,无法收敛。这就是Jasmine所要解决的核心矛盾。
2. 传统方法的缺点
传统的自监督深度估计方法基于重投影损失(Reprojection Loss)进行训练,其流程如下:
2.1 传统方法的技术流程
-
输入与模型初始化:输入是一段连续的视频序列,取其中相邻的两帧图像:当前帧 I_t 和下一帧 I_{t+1}。初始化两个神经网络:
- 深度估计网络:输入一张图片(如 I_t),输出其对应的深度图 D_t
- 姿态估计网络:输入两张相邻图片(如 I_t 和 I_{t+1}),输出相机从 t 时刻到 t+1 时刻的相对位姿,通常用一个旋转矩阵 R 和一个平移向量 T 表示
-
基于深度和位姿的坐标变换(重投影):
- 获取像素点的深度值:从预测的深度图 D_t 中取出该点对应的深度 d = D_t(p_t)
- 反投影至3D空间:根据相机的内部参数,将2D像素点 p_t 和其深度值 d 结合,计算出它在3D空间中的具体位置 P_3D
- 投影到下一帧:利用预测的相机位姿 [R|T],将3D点 P_3D 变换到 t+1 时刻的相机坐标系下,然后再投影到 t+1 的成像平面上,得到一个理论上对应的像素坐标 p'_
-
计算重投影误差(光度损失):
- 根据 p'{t+1} 的坐标,从真实的 I 图像中采样出其颜色值
- 直接取出 I_t 中原始点 p_t 的颜色值
- 计算这两个颜色值之间的差异,通常使用L1损失或SSIM(结构相似性)损失
-
构建最终损失函数并优化:
实际上,为了处理遮挡等问题,不仅会将 I_t 投影到 I_{t+1},也会将 I_{t+1} 投影回 I_t(即前向和后向投影)。最终的损失函数 L_total 通常是多种损失的综合体:- 光度重投影损失 L_photo:上述步骤计算出的误差是核心
- 平滑性损失 L_smooth:一个正则化项,鼓励深度图在颜色平滑的区域也保持平滑
- 最终损失:L_total = L_photo + λ L_smooth(其中λ是一个权重系数)
2.2 传统方法的致命缺陷
传统方法依赖的光度一致性假设非常脆弱,在以下场景会失效,产生错误的监督信号:
- 遮挡(Occlusion):I_t 中的点在 I_{t+1} 中被其他物体挡住,根本不存在
- 弱纹理/重复纹理(Weak Texture):如白墙、地面,p'_{t+1} 周围区域颜色全都一样,无法准确定位
- 光照变化(Illumination Change):如车开进隧道,同一物体的颜色在两帧中差异巨大
- 移动物体(Moving Objects):假设场景静止的前提被打破
这些情况会导致计算出的重投影损失是"脏"的、有噪声的,从而误导模型的学习,最终导致预测的深度图模糊、缺乏细节、物体边界不清。
2.3 代表性传统方法
在Jasmine提出之前,已经有一些经典的自监督深度估计方法:
-
Monodepth2:作为自监督深度估计的代表作之一,采用端到端的网络结构,通过光度一致性损失和深度平滑性损失联合优化模型。
-
GeoNet:引入了几何一致性约束,通过同时估计深度、姿态和光流来提高深度估计的准确性。
-
SC-DepthV3:专注于动态场景下的鲁棒深度估计,通过解耦动态区域来减少运动物体对深度估计的影响。
这些方法虽然在一定程度上解决了深度估计问题,但在细节保留和泛化能力方面仍有明显不足。
3. Jasmine新方法原理
Jasmine框架的核心设计目标是:在不引入任何深度标注的前提下,既利用SD模型保住丰富的纹理细节,又保证自监督学习带来的几何一致性。为此,作者提出了两个简单而有效的核心组件:
3.1 创新一:混合批次图像重建 (Mix-batch Image Reconstruction, MIR)
3.1.1 原理
既然重投影损失会污染SD,那么就为SD模型找一个"干净"的监督信号作为锚点,来牢牢锁住其视觉先验。这个锚点就是图像本身。
3.1.2 工作机制
在每个训练批次(Batch)中,作者混合了两种数据:
- 真实帧(如KITTI图像):用于主任务——深度预测。使用传统的自监督重投影损失来学习场景的几何结构
- 高质量自然图像:用于旁路任务——图像重建。让SD编码器提取特征后,通过一个轻量的解码器去重建这张图像,并以图像自身作为完美的监督信号
通过这种方式,MIR巧妙地将结构学习(几何一致性)和细节保持(视觉先验)解耦。SD模型在"重建图像"这个任务中不断被提醒要保持其生成清晰图像的能力,从而抵御了重投影损失中噪声的侵蚀,守住了"金身不坏"。
3.2 创新二:尺度-位移门控循环单元 (Scale-Shift GRU, SSG)
3.2.1 原理
SD系方法预测的深度是尺度-位移不变(Scale-Shift Invariant, SSI)的(即 y = ax + b),而自监督几何约束只能提供尺度不变(Scale Invariant, SI)的监督(即 y = ax)。两者之间存在一个分布鸿沟(差了一个位移量 b),直接融合会导致不匹配。
3.2.2 工作机制
SSG是一个精巧的模块,内置一个Scale-Shift Transformer(SST),它被设计用来显式地迭代估计并修正深度图的尺度(scale)和位移(shift),从而将SD输出的SSI深度分布对齐到自监督所需的SI分布。
此外,SSG中的GRU模块的重置门(Reset Gate)在反向传播时扮演了"梯度滤波器"的角色,能有效阻挡来自重投影损失的异常和有害梯度,保护从SD编码器传来的精细特征不被污染。
4. 相关新方法分析
4.1 基于扩散模型的深度估计方法
近年来,扩散模型在计算机视觉任务中展现出强大的能力,一些研究者开始探索将其应用于深度估计任务:
-
DiffusionDepth:将深度估计任务重新表述为去噪扩散过程,通过单目视觉条件的引导,迭代地将随机深度分布精细化为详细的深度图。
-
MonoDiffusion:基于扩散模型的自监督单目深度估计方法,利用扩散模型的生成能力提升深度图的质量。
-
Marigold:通过微调Stable Diffusion模型,利用其强大的视觉先验能力提升深度估计的细节和泛化能力。
-
GeoWizard:进一步优化了基于扩散模型的深度估计方法,在推理速度和精度之间取得了更好的平衡。
4.2 其他改进的自监督方法
除了基于扩散模型的方法外,研究者们还提出了许多其他改进的自监督深度估计方法:
-
SC-Depth系列:专注于动态场景下的鲁棒深度估计,通过解耦动态区域来减少运动物体对深度估计的影响。
-
LoFtDepth:利用局部特征引导的自监督深度估计方法,通过减少与深度无关特征的干扰来提升性能。
-
EPC++:通过引入边缘感知和多尺度特征融合机制来提升深度估计质量。
这些方法虽然在各自关注的方面有所改进,但在整体性能和泛化能力方面仍不如Jasmine。
5. 效果与结论
5.1 实验效果
Jasmine的效果非常惊人,在多个维度证明了其优越性:
- 刷榜KITTI:在权威的KITTI深度估计基准上,Jasmine全面超越了所有现有的自监督方法,达到了新的 state-of-the-art (SOTA) 性能
- 恐怖的零样本泛化能力:仅在KITTI上训练后,直接在其他数据集(如CityScapes, DrivingStereo)上测试,Jasmine不仅远超其他自监督方法,甚至在多个场景下零样本地超越了需要深度标注来微调SD的监督模型
- 无与伦比的细节:Jasmine生成的深度图细节丰富程度是前所未有的,能够清晰恢复出水面倒影、纤细的栏杆、行人轮廓、地面标记等复杂细节
5.2 结论
Jasmine是首个成功将Stable Diffusion先验注入自监督深度估计的框架。它通过MIR和SSG两大创新,解决了"噪声监督污染先验"和"分布不匹配"两大核心挑战,在不使用任何深度GT的情况下,实现了细节、精度和泛化能力的巨大飞跃。
更重要的是,其提出的MIR无监督微调范式具有通用性,为后续在语义分割、光流估计等缺少高质量标注的任务中引入大模型先验开辟了新的道路。

浙公网安备 33010602011771号