2025.7.21学习日记

1.相机模型复习

1.1 坐标系

在相机模型中一共有四种坐标系,为像素坐标系,图像坐标系,相机坐标系,世界坐标系;

  • 像素坐标系与图像坐标系之间的转换可以使用一个四棱锥表示,棱锥顶点由一个平面顶点垂直向上;
  • 图像坐标系与相机坐标系之间的转换也用四棱锥,棱锥顶点由平面中心点垂直向上;
  • 相机到世界就是简单的旋转+平移变换

1.2 参考资料

双目相机

2.Review

之前介绍了3D重建的传统范式SfMMVS,以及应用上述两种方法的应用级软件Colmap,今天将继续介绍Review of Feed-forward 3D Reconstruction: From DUSt3R to VGGT的有关内容

2.1 前馈网络范式

以DUST3R的开创性工作,催生了一种名为前馈三维重建的范式.方法的核心思想是使用Transformer架构蒸馏(distilation)整个SfM+MVS工作流程,标志着3D重建从迭代优化端到端推理.
以DUSt3D为开创工作,出现了如下几条Workflow:

  • 增强核心组件:MASt3R,VGGT
  • 解决多视图一致性:Align3R,Power3R
    常见的一致性问题包括,几何一致性,尺度一致性,外观一致性,拓扑一致性
  • 针对特定实时的任务:SLAM3R(Location And Mapping),Drive3R(自动驾驶),Reloc3R(视觉重定位)

2.2 前馈网络框架

前馈网络的3D Restructure的流程借鉴了传统范式的特征提取+匹配的过程.
【注】例如在colmap流程中,会从img1与img2中提取特征点,而后需要匹配img1与img2的特征点;而Transformer中流程中,利用Embed提取特征,利用Transformer的全局注意进行匹配
总结来说分解为三个基本支柱

  • 学习密集的对应关系
    在作者的描述中,首先使用CNN或者ViT提取特征图,使用编码器计算一个全局的,像素级的匹配关系.
    DUSt3R提出了这种匹配关系,通过更为复杂的多尺度融合策略,MASt3R与VGGT提升了这种匹配质量.
  • 联合几何与姿态的推理
    在作者的描述中,前馈模型中引入回归头作为解码策略,不同的模型的解码策略不同
  1. DUSt3R:DUSt3R采用对齐姿态的方法,不直接预测位姿,而是预测第一张图片的每个像素点的点云,计算一个变换层,将预测点云与从第二张图片投影出的点云进行对齐
    【注】煮啵也看不懂,不过后面的模型有更简单的
  2. PE3R:PE3R的解码策略很简单,直接从对应关系中回归(R,t)
  3. MonST3R:MonST3R的解码策略,融合了一个单目深度估计网络,从对应关系回归(R,t)
  • 多视图场景一致性
    在作者的描述中,这部分解决了图像相机位姿局部对齐而没有全局对齐的缺陷,

2.3 与MVS方法对比

等待中...

2.4 数据集和指标

等待中...

posted @ 2025-07-21 20:42  BingUw  阅读(27)  评论(0)    收藏  举报