. Related Work 相关工作
相关工作部分介绍了视觉SLAM领域多种方法及其局限性,包括:稀疏单目SLAM,早期稠密单目SLAM,多视图先验方法,体积表示方法,相机校准相关方法以及两视图 3D 重建先验相关工作。
- 稀疏单目 SLAM:通过联合求解相机位姿和部分3D地标实现精确的位姿估计,能在大规模场景中实时估计位姿和进行稀疏重建。但该方法缺乏密集场景模型,不利于鲁棒跟踪和几何推理。
- 早期密集单目 SLAM:早期系统是通过人工的正则化方法,交替优化位姿和稠密深度,局限于受控环境。后来有尝试结合数据驱动先验与后端优化的方法,从单视图预测几何量虽有进展,但仍存在歧义,导致3D几何有偏差且不一致。为解决问题,研究转向预测不同形式的先验,但多视图间可靠对应仍难以实现。
- 多视图先验方法:多视图立体(MVS)和光流等多视图先验,旨在通过学习多视图对应关系获取几何信息。MVS 需固定位姿实现对应,光流受运动和几何纠缠影响,存在退化问题,且二者都依赖额外信息。DROID-SLAM 将学习到的特征匹配与逐像素密集束调整框架结合,虽鲁棒,但缺乏明确几何约束,仍会产生不一致的 3D 几何。
- 体积表示方法:基于体积表示的 SLAM 系统利用神经场中的可微渲染和高斯泼溅等技术,在重建一致性上有潜力。不过,这些方法实时性能欠佳,需要深度信息、额外2D先验或慢速相机运动来约束,且体积表示存在内存需求大、需预定义分辨率的问题。
- 相机校准相关方法:多数 SLAM 系统假设已知相机内参校准。传统自动校准方法对场景几何有严格假设,易受噪声影响;基于束调整的在线精修需预设参数模型和初始化;数据驱动的方法在精度和相机模型定义灵活性上存在不足。
- 两视图3D重建先验相关工作:DUSt3R能输出两图像在同一坐标系下的稠密3D点云,MASt3R 在此基础上预测额外特征改善匹配。但二者的预测在3D几何上仍存在不一致和相关误差,需要大规模优化保证全局一致性,且时间复杂度随图像数量增加而增加。Spann3R虽避免后端优化,但在大场景中存在漂移问题。
3. Method 方法论
MASt3R-SLAM系统的核心方法,涵盖点图匹配、跟踪融合、图构建与回环检测、后端优化等关键环节,以下是方法论图:

通过从MASt3R中预测一个点图,并使用我们的高效迭代投影点图匹配来寻找像素匹配,从而跟踪新图像与当前关键帧的关系。跟踪估计当前姿态并执行局部点图融合。当新的关键帧被添加到后端时,将通过使用编码的MASt3R特征查询检索数据库来选择循环闭包候选项。然后用MASt3R对候选项进行解码,如果找到足够数量的匹配项,则将边添加到后端图中。大规模的二阶优化实现了姿态和密集几何形状的全局一致性。
浙公网安备 33010602011771号