Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction

https://arxiv.org/pdf/2602.10101
Robo3R 通过结合 机器人状态信息 和 视觉数据,采用了多种创新技术(如交替注意机制、专门的解码头和外参估计模块),有效地解决了传统 3D 重建模型中的一些问题,如过度平滑和精度不足。同时,它利用 机器人先验 和高质量的训练数据集,使得模型能够在真实的机器人操作环境中表现出色,具有很强的迁移能力和鲁棒性。

1. Robo3R 模型概述

Robo3R 是一个 前馈(feedforward)3D 重建模型(一个一次性计算的模型,信息从输入到输出是单向流动的,不涉及循环或者递归计算;处理速度较快,适合实时应用;相比于循环神经网络RNN等复杂的架构,前馈网络更易于训练和调试)设计用于处理来自机器人操作环境的视觉和状态信息。传统的 3D 重建模型通常使用纯粹的视觉输入如 RGB 图像,但 Robo3R 通过结合 机器人状态信息(robot states) 来增强模型的表现力,尤其是在机器人操作的应用中。
机器人状态信息 包括机器人的位置、姿态如关节角度或位移等,这些信息对于高精度的 3D 重建至关重要。与只依赖图像的模型不同,Robo3R 利用机器人所处的环境和状态信息进行建模,从而更准确地重建物体的 3D 结构。
本质不是“再做一个更强的通用 3D reconstruction 模型”,是把 feed-forward 3D reconstruction 改造成一个能直接服务机器人操作(manipulation-ready)的 3D 传感模块,目标是替代或补足 depth camera,在机器人基座坐标系下实时输出有米制尺度、可用于物理交互、且和机器人本体对齐的 3D 几何。

  • 作者认为,机器人操作真正缺的不是“泛泛的 3D 重建”,而是可操作级别的 3D 几何:要有精细局部几何、可靠米制尺度、稳定相机位姿、并且最好直接落在 canonical robot frame 里。现有 depth camera 会受透明、反光、细小物体和光照影响;现有 feed-forward reconstruction 方法则通常缺乏 manipulation 所需的精度和 metric consistency。
    方法核心
    1 用 RGB + robot state 代替 depth sensor;
    2 直接输出 面向机器人控制/规划可用 的 3D 表示;
    3 把 3D reconstruction 从“视觉任务”推进成“机器人感知模块”。

2. 交替注意机制(Alternating-Attention Mechanism)

Robo3R 使用了一种叫做 交替注意机制(Alternating-Attention Mechanism) 的方法,提升信息流动和特征提取的效率。
具体来说,交替注意机制能够优化模型在处理信息时的聚焦方式。
注意力机制:注意力机制本质上是一种加权计算,模型会根据当前任务的需要,自动选择性地“关注”输入的某些部分。例如,在处理图像时,模型可以重点关注物体的边缘或纹理,而忽略背景的无关部分。
交替注意:传统的注意机制可能只在一个步骤中做选择性聚焦,而交替注意机制通过在多个步骤中交替进行特征提取和聚焦,提高了多层次的细节捕捉。这样做的好处是,它能够在模型的不同部分之间有效地传播信息。
提高多帧信息传播的效率:在多帧图像的情况下,交替注意机制能够在多个时间步长或视角之间灵活地传递关键信息,增强了模型在动态环境中的表现力。
换句话说,交替注意机制帮助模型不仅在当前帧内处理信息,还能把之前的帧或未来的帧中的信息有效传递给当前帧,确保多视角数据的整合和理解。
通过这种机制,Robo3R 可以更好地在不同时间步和视角之间传递关键信息,尤其是在处理图像序列或多视角数据时,可以保持信息的流动性和一致性。这对于 3D 重建至关重要,因为 3D 重建涉及从多个角度(例如不同的相机视角或时间帧)获取信息。

3. 解码头(Decoding Heads)

在 3D 重建任务中,模型需要预测每个点的深度信息、位置以及其他细节。Robo3R 设计了多个解码头来分别处理不同的任务,这些任务涉及如何获取 3D 信息、如何对齐视角,甚至如何处理点云数据,来帮助解码复杂的 3D 信息:

掩膜点头(Masked Point Head)

传统的 3D 重建方法可能会导致图像重建结果变得过于平滑,缺乏细节。为了解决这个问题,Robo3R 使用了掩膜点头。这个头部通过将点预测任务拆分成多个部分(例如 深度、归一化图像坐标 和 掩膜mask预测),来减少信息损失,避免过度平滑。
它的核心思想是通过 反投影(unprojection) 和 掩膜(masking) 技术,恢复出更锐利、细致的几何结构,从而使重建结果更加真实和准确。掩膜 是一种遮罩技术,可以帮助模型忽略那些不相关或无效的区域如背景。在点云或深度图中,模型将会基于掩膜预测更清晰、更准确的细节。

相对姿态头(Relative Pose Head)

在多视角的 3D 重建中,我们需要考虑不同相机视角之间的相对关系。相对姿态头的任务是预测各个视角之间的相对姿态relative poses(即相机的旋转和位移)。通过这种方式,模型可以正确地将多个视角的图像数据对齐。相对姿态头能够帮助将不同时间步或不同视角下的点云数据对齐到一个统一的 3D 空间,从而确保每个点的准确位置。

相似性变换头(Similarity Transformation, S.T.)

这个解码头的目的是提取全局 相似性变换(similarity transformation),它将不同的点映射到一个标准化的 3D 坐标系中。它采用了一个度量尺度(metric-scale),确保模型将不同视角中的点映射到实际的几何尺度,避免出现几何畸变。这个过程通过 平移、旋转 等变换来将不同视角下的 3D 点对齐到标准的参考框架中。这样,模型能够将从不同视角获取的点数据映射到一个统一的度量尺度(metric-scale)下,从而在 3D 空间中获得更精确的几何结构。

4. 外参估计模块(Extrinsic Estimation Module)

在实际应用中,相机的 外参(extrinsic parameters)决定了相机的姿态和位置。Robo3R 的外参估计模块可以通过 求解 Perspective-n-Point (PnP) 问题 来提取机器人和相机的相对位置关系,估计机器人和相机之间的外参。具体而言,PnP 问题是给定 3D 点和它们在图像上的 2D 投影,计算相机的旋转和平移参数。
外参(extrinsic parameters)是描述相机如何在世界坐标系中定位和定向的参数。在 3D 重建中,准确的外参估计是非常重要的,因为它直接影响到场景重建的几何精度。
Robo3R 的外参估计模块通过 精确的算法,结合机器人的位置和相机的姿态,进一步优化模型的重建结果。这个模块进一步精细化了 3D 重建过程,确保模型能够精确地把图像数据映射到真实的物理世界中,从而得到更准确的 3D 结果。

5. 机器人先验(Robot Priors)

Robo3R 相比传统的 3D 重建模型,加入了 机器人先验,即利用机器人本身的知识和约束来提高重建的精度。机器人先验包括了机器人的物理约束(如机器人的运动学和动力学模型)以及其操作环境的知识。这些先验信息可以有效避免由于缺乏足够数据尤其是在缺乏足够视角的情况下而引起的重建误差。
机器人运动学:机器人如何在空间中移动,其每个关节的限制和自由度等。
机器人与环境的交互:机器人如何抓取、放置物体,以及与物体的相对位置关系。

6. 训练数据集

Robo3R 的训练数据集是一个 大规模合成数据集,包含了约 400 万帧 高质量的图像。由于数据集是合成的,而且具有 高度的多样性 和 逼真性,它能够很好地模拟现实世界中的复杂场景。
高度逼真的数据集使得 Robo3R 在训练过程中能够学到更多的 多样性特征,如不同的光照条件、物体形状、视角变化等。因此,Robo3R 可以很好地 迁移到实际的机器人操作场景中,从而提高机器人在现实世界中的操作能力和 3D 重建的精度。
多样性:包括不同的光照条件、不同类型的物体和各种角度的拍摄。
逼真性:数据集使用高质量的渲染技术,使得训练数据看起来与真实世界中的图像几乎相同。

6.方法※※※

A. 任务定义和3D表示

1. 任务定义:

任务的目标是 从稀疏视图中进行细粒度的3D重建。具体来说,任务的输入是 单目或双目RGB图像机器人状态(关节角度),输出是多种3D属性,如 深度图归一化图像坐标相机外参相对位姿相似性变换

  • 输入

    • 单目或双目RGB图像 \(I_i\)(大小为\(H \times W\)),视角数目\(N\in{\{1,2}\}\)
    • 机器人状态 \(\mathbf{q} \in \mathbb{R}^Q\),表示机器人关节角度,其中\(Q\)是关节数。

不是纯视觉模型,而是显式利用机器人自身状态的 reconstruction 模型。作者后面也用 ablation 证明这件事确实有帮助。

  • 输出

    • 深度图\(D \in \mathbb{R}^{H \times W}\):每个像素点对应的深度值,表示该点到相机的距离。
    • 归一化图像坐标\(C \in \mathbb{R}^{H \times W \times 2}\):表示图像上的每个像素在图像坐标系中的位置。normalized image coordinates
    • 相机外参 \(\mathbf{R}*{\text{rel}} \in \mathbb{R}^{3 \times 3}\)和$ \mathbf{t}*{\text{rel}} \in \mathbb{R}^3$:分别表示相机的旋转矩阵和位移向量。
    • 相对位姿 \(\hat{\mathbf{R}}*{\text{rel}}\)和$\hat{\mathbf{t}}*{\text{rel}} $。relative camera translation / rotation
    • 相似性变换 \(S \in \mathbb{R}^{4 \times 4}\):用于将点云从一个坐标系转换到另一个坐标系的变换矩阵。global similarity transformation

最后把多视图点云注册后,再用这个全局相似变换映射到metric-scale、canonical robot frame 下的 3D 几何。


  • 动机:通常,3D 重建模型会单独依赖于图像数据(RGB图像),但对于机器人操作来说,单纯的图像信息是不够的。机器人状态(如关节角度、位置等)能提供 与物体的相对关系,这种先验信息对精确重建至关重要。例如,机器人在抓取物体时,手的位置和姿态对于判断物体的 3D 形状和空间关系非常重要。
  • 如何解决:通过将 机器人状态RGB图像 融合输入模型,Robo3R 能够将图像和机器人的运动信息结合起来,提供更准确的 3D 重建,特别是在物体遮挡或图像不完整的情况下。

2. 尺度不变的局部3D表示

在 3D 重建任务中,为了克服 尺度变化,Robo3R 使用了 尺度不变的局部3D表示

  • 反投影:为了将图像坐标 \((x, y)\)和深度 \(d\) 转换为3D空间坐标 \((x', y', d')\),使用反投影公式:

    \(\mathbf{P}_{\text{local}} = [x \cdot d, y \cdot d, d]^T\)
    其中,\(x, y\)是图像上的像素坐标,\(d\) 是深度值。

    该公式可以通过深度图中的每个像素位置来恢复物体的 3D 坐标。


  • 动机:不同的视角下,物体的 尺度 可能会发生变化,导致模型的 3D重建结果 不准确。例如,相机距离物体远近可能会影响深度估计。如何确保重建出的点云不受 尺度变化 影响,是一个核心挑战。
  • 如何解决:Robo3R 通过 反投影尺度不变的局部3D表示 来解决这个问题。模型首先通过反投影将图像上的像素坐标与深度值结合,获得 局部3D点,然后通过相似性变换(Similarity Transformation)来处理这些局部点的尺度和位姿问题,确保在不同视角下重建的点云具有一致的尺度。

3. 3D几何结构的重建(Metric-Scale Geometry)

通过反投影,我们可以得到局部的 3D 坐标。为了将来自不同视角的 3D 点统一到一个标准坐标系,使用 相机的旋转矩阵\(R_{\text{rel}}\)位移向量\(t_{\text{rel}}\)来进行注册和对齐:

  • 注册多个视角的3D点

    \(\mathbf{P}*{\text{reg}} = { R*{\text{rel}}^i \mathbf{P}*{\text{local}}^i + t*{\text{rel}}^i \ | \ i = 1, \dots, N }\)

    这里,\(N\) 是视角的数量,\(\mathbf{P}*{\text{local}}^i\)是第\(i\)个视角下的局部3D点,$R*{\text{rel}}^i $ 和\(t_{\text{rel}}^i\)分别是第\(i\)个视角的旋转和位移。

  • 相似性变换:接下来,我们将这些局部点通过 相似性变换 ( S ) 映射到一个标准坐标系中:

    \(\mathbf{P}*{\text{cano}} = { \mathbf{P}*{\text{reg}}^i | 1 \cdot S^T \ | \mathbf{P}*{\text{reg}}^i \in \mathbf{P}*{\text{reg}} }\)

    这里,标准坐标系下的点云经过相似性变换 \(S\),以获得度量一致的3D几何结构。

B. 模型架构

1. 编码器(Encoders)

模型的输入是 RGB图像机器人状态。RGB图像通过 DINOv2 ViT-L(视觉变压器)进行特征提取,而机器人状态则通过 多层感知器(MLP) 进行编码。具体而言:

  • 图像特征提取

    \(F_{\text{image}} = \text{DINOv2}(I)\)
    这里,\(F_{\text{image}}\)是提取出来的图像特征。

  • 机器人状态编码
    \(F_{\text{state}} = \text{MLP}(\mathbf{q})\)
    这里,\(F_{\text{state}}\)是编码后的机器人状态特征。

2. 变换器骨干网络(Transformer Backbone)

通过 交替注意力机制(Alternating-Attention Mechanism),模型利用 全局注意力帧间注意力 来传播信息。具体来说,模型使用 18 层交替的 全局注意力块帧间注意力块

  • 全局注意力:通过计算图像中不同区域的 相似性 来聚焦关键部分。

  • 帧间注意力:通过考虑多个视角的图像间的关系,确保模型能够在多个时间帧或视角之间共享信息。


  • 动机:当涉及到多个视角或多帧图像时,如何 高效地传播信息 是一个重要问题。传统的模型通常只依赖于单一帧的信息,这可能导致 视角间信息的不一致,从而影响3D重建质量。
  • 如何解决:交替注意力机制通过 全局注意力 和 帧间注意力 使得模型能够在不同视角之间高效地共享信息。这不仅帮助模型在当前图像中提取重要特征,还能确保从多个视角的图像中提取一致的 3D 结构。

3. 预测头(Prediction Heads)

模型通过多个预测头来实现任务目标:

  • 掩膜点头(Masked Point Head)

    通过分开预测 深度图像坐标掩膜,模型能够克服过度平滑问题。具体来说,模型先预测深度值 \(d\),再根据图像坐标进行反投影,最后聚合所有预测点以生成完整的3D点云。


  • 动机:在密集点预测任务中,传统方法可能会导致过度平滑,从而失去 几何细节,导致边缘模糊、物体形态不清晰,尤其是在物体表面变化较大的地方。
  • 如何解决:Robo3R 采用了 掩膜点头(Masked Point Head),将 深度、图像坐标 和 掩膜 分开预测,从而避免过度平滑。这使得模型可以在不同部分(如物体、背景)之间进行细粒度的分割,并恢复 细节,从而提高点云的质量。

  • 相对位姿头(Relative Pose Head)

    用于预测相机间的 相对旋转相对位移,即估计视角间相机的相对姿态。

  • 相似性变换头(Similarity Transformation Head)

    用于估计相机间的 相似性变换,帮助将不同视角的点云对齐到标准的3D坐标系中。

4. 外参估计模块(Extrinsic Estimation Module)

通过 PnP问题,Robo3R 估计 相机外参,即相机的位置和朝向。为了进一步优化相机外参,模型还预测了 机器人关键点,并通过这些关键点来进行相机外参的估计。

C. 合成数据管道(Synthetic Data Pipeline)

Robo3R 使用 大规模合成数据集 Robo3R-4M 进行训练。该数据集包含了多样化的物体、纹理和环境映射数据。通过模拟不同场景中的光照、物体位置、相机位姿等因素,模型能够在一个多变的环境中进行训练,从而提升其在现实世界中的泛化能力。

D. 训练目标(Training Objectives)

Robo3R 使用多个 损失函数 来优化模型的性能。这些损失函数帮助模型在训练过程中逐步提高精度。

  • 点损失(Point Loss)

    \(L_{\text{point}} = \frac{1}{3HW} \sum_{i=1}^{H \times W} \left | s \cdot \hat{\mathbf{P}}*{\text{local}} - \mathbf{P}*{\text{local}}^{\text{gt}} \right |_1\)
    这里,\(s\)是通过对比预测的点云和地面真实点云来调整的 缩放因子


  • 动机:模型需要将预测的 3D 点云与真实的 3D 点云进行匹配。通过最小化预测点云和真实点云之间的 L1距离,可以确保重建的点云与真实场景的一致性。

  • 法线损失(Normal Loss)

    \(L_{\text{normal}} = \frac{1}{K} \sum_{k=1}^{K} \Delta \theta_k\)
    这里,\(K\)是有效的法线对的数量,\(\Delta \theta_k\) 是预测法线和真实法线之间的角度误差。


  • 动机:点云不仅仅是几何点,它们的 表面法线(表示物体表面的方向)也非常重要。法线可以帮助模型理解物体的 表面方向,从而改善几何一致性。通过约束预测点云的法线与真实法线的差异,模型能够确保在更大尺度上保持几何一致性。

  • 掩膜损失(Mask Loss)

    \(L_{\text{mask}} = \frac{1}{HW} \sum_{i=1}^{H \times W} \text{BCE}(\hat{m}_i, m_i)\)
    这里,\(BCE\)二进制交叉熵损失,用于衡量预测的掩膜与真实掩膜之间的差异。


  • 动机:图像中的前景和背景可能会混淆,从而影响 3D 重建的准确性。通过 掩膜,模型能够分开前景(物体)和背景,专注于 重要区域。掩膜损失有助于让模型专注于物体表面,避免过度平滑或错误的区域融合。

  • 相对位姿损失(Relative Pose Loss)

    \(L_{\text{pose}} = \alpha \cdot \text{Huber}(\hat{\mathbf{t}}*{\text{rel}}, \mathbf{t}*{\text{rel}}) + \text{Angle}(\hat{\mathbf{R}}*{\text{rel}}, \mathbf{R}*{\text{rel}})\)
    其中,Huber损失 用于平滑地计算位移误差,Angle损失 用于计算旋转角度的误差。


  • 动机:多视角重建需要准确地将多个视角中的点云对齐。相对位姿损失帮助模型估计不同相机视角之间的 相对旋转 和 平移,确保每个视角的点云能够正确地对齐。

  • 相似性变换损失(Similarity Transformation Loss)

    \(L_{S} = \beta_1 \cdot \text{Huber}(s, s_{\text{gt}}) + \beta_2 \cdot \text{Huber}(\hat{\mathbf{t}}*{\text{abs}}, \mathbf{t}*{\text{abs}}) + \text{Angle}(\hat{\mathbf{R}}*{\text{abs}}, \mathbf{R}*{\text{abs}})\)


  • 动机:当将多个视角的点云映射到标准坐标系时,相似性变换能够确保这些点云能够对齐。通过引入相似性变换损失,模型可以有效地将多个视角下的点云进行整合,从而在全局范围内得到一致的 3D 重建。

  • 关键点损失(Keypoint Loss)

    \(L_{\text{kp}} = \gamma \cdot \left| \hat{M}*{\text{kp}} - M*{\text{kp}} \right|*1 + \left| \hat{C}*{\text{kp}} - C_{\text{kp}} \right|_1\)


  • 动机:机器人和物体的 关键点 对于操作任务至关重要。通过优化关键点的预测,Robo3R 能够更好地处理机器人与物体的相对关系,提升模型在机器人操作中的实际应用能力。

定量 和 定性 的评估方法

在这部分实验中,作者设计了多种 定量定性 的评估方法,旨在验证 Robo3R 在 3D 重建质量和机器人操作任务中的有效性。实验内容和结果可以从多个方面证明 Robo3R 方法的优势。

1. 定量性能评估:3D重建质量

作者首先构建了一个 基准测试 来评估 3D 重建性能,重点评估了模型在 机器人操作场景 中的表现。通过渲染真实世界的物体、纹理和环境图,测试集包含了 2,000 个场景和 80,000 帧图像。评估指标包括 尺度不变点误差法线误差尺度误差,以此来衡量模型的重建质量。

定量实验结果

  • 与基准模型比较:

    • 单目图像 输入的情况下,Robo3R 显示了 显著优于基准模型(例如 π³,一个较为常见的前馈3D重建模型)的方法,尤其在 尺度不变点误差(scale-invariant point error)、法线误差(normal error)和 尺度误差(scale error)方面。
    • 单目图像双目图像情况下,Robo3R 的 点误差(Point Error)都远小于其他模型,尤其在单目设置下,它的 点误差 为 0.005,比第二好的基准方法 π³ 低了约10倍。

    这个结果证明了 Robo3R 在处理稀疏视图的情况下,能够恢复 高精度的几何信息,克服了传统方法(尤其是 π³)在 尺度模糊(scale ambiguity)方面的不足。

  • 相对相机位姿估计:

    • 在相对 位移误差(RTE)旋转误差(RRE) 方面,Robo3R 同样表现出了优越性。
    • Robo3R 在相对位姿估计上,相较于基准方法(如 π³)有大约 8倍5倍 的误差减少,显示了其在多视角重建中对相机位姿预测的高准确性。

总结:

通过与其他 3D 重建模型(如 VGGT, π³, MA, DA3)的对比,Robo3R 在 点云重建相机位姿估计 上的表现都显示了显著的优势,尤其是在 精度一致性 上。

2. 定性比较:现实世界中的3D重建

  • 多种挑战性场景:

    • Robo3R 在一些挑战性场景(如 反射物体透明物体密集环境)中的表现也优于其他方法。通过与 深度相机(Depth Camera)和 其他基准模型 的对比,Robo3R 能够在 几何细节重建 上取得更好的结果。
    • 尤其是在非常 小的物体(如只有 1~2 像素的物体)和 复杂背景(如有镜面反射或透明物体的场景)下,Robo3R 仍然能够成功地恢复 细粒度的3D几何,而其他方法则未能有效处理这些复杂情况。

3. 下游机器人操作任务

(1) 模拟学习任务(Imitation Learning)

  • 任务描述: Robo3R 被评估在四个模仿学习任务上:扫豆子(Sweep Bean)插螺丝(Insert Screw)早餐(Breakfast)双臂倒水(BiDex Pour)。这些任务模拟了机器人在执行实际操作时需要进行的 精确几何重建物体操控

  • 结果:

    • 在这些任务中,Robo3R 相比于其他基准方法(例如 π³MF)表现更好,尤其是在 倒水(BiDex Pour) 任务中,Robo3R 展示了极高的成功率。

    • 例如,在 插螺丝 任务中,Robo3R 结合 3D重建与模仿学习,成功率为 14/16,高于 MF + RGB CameraMF + Depth Camera 的表现。

(2) 从模拟到真实的转移(Sim-to-Real Transfer)

  • 任务描述: 这项实验测试了 Robo3R从模拟环境到现实环境的转移 中的表现,尤其是机器人从 RGB图像 中重建 3D几何 后是否能够有效应用于实际任务。

  • 结果:

    • Robo3R 在 模拟到真实场景 的转移过程中,成功地 减少了现实与模拟环境之间的差距,尤其是在涉及 小物体和高精度操作 的场景中。
    • 相比其他方法,Robo3R 在 推物体(Push Cube)拾取物体(Pick Cube) 等任务中的成功率明显更高,表明其在 实际操作中的鲁棒性几何重建的可靠性 更强。

(3) 抓取合成(Grasp Synthesis)

  • 任务描述: 使用 AnyGrasp 来生成抓取策略,基准方法和 深度相机 提供的点云用于抓取操作。

  • 结果:

    • Robo3R 显著提高了 抓取成功率,特别是在 透明物体小物体 的情况下。其他模型在这些场景下表现不佳,甚至无法生成合理的抓取策略。

(4) 无碰撞运动规划(Collision-Free Motion Planning)

  • 任务描述: 测试 Robo3R 是否能够成功进行无碰撞的运动规划,尤其是在复杂障碍物环境中的表现。

  • 结果:

    • Robo3R 在 碰撞避免 的任务中也表现出色,尤其是在面对 透明物体反射物体细小障碍物 时,能够确保机器人避开障碍并有效完成任务。

4. 设计选择的有效性验证(Ablation Study)

通过一系列 消融实验(Ablation Studies),作者验证了 Robo3R 中每个设计的有效性。

(1) 相机位姿估计模块:

  • 实验:通过与 直接预测方法 比较,验证了 通过预测机器人关键点和PnP方法来估计相机位姿 的有效性。
  • 结果:Robo3R 的 外参估计 模块相比 直接预测方法 显示了更低的 位移误差(ATE)旋转误差(ARA),证明了关键点预测和 PnP方法 在估计相机外参方面的优势。

(2) 机器人状态条件化:

  • 实验:测试是否将 机器人状态 与图像特征结合能够提升重建质量。
  • 结果:与 不使用机器人状态 的方法相比,使用机器人状态条件化的 Robo3R 显示了显著的改进,特别是在 点误差相机位姿估计 上。

总结:

通过 定量评估定性评估下游任务的应用实验,作者展示了 Robo3R3D重建机器人操作任务 中的显著优势,特别是在:

  • 提供 高质量的3D重建
  • 成功 转移到真实环境
  • 模拟和实际任务中的表现优异

这些实验充分证明了 Robo3R 方法在解决机器人操作中的 几何重建、物体操控、运动规划 等任务上的有效性。

核心 claim

  • claim 1:它能从 RGB + robot state 实时预测 manipulation-ready 的 3D 几何
    作者声称 Robo3R 是一个 feed-forward、real-time 的模型,可以直接从 RGB 图像和机器人状态预测高精度、米制尺度、canonical robot frame 下的 3D 几何。
  • claim 2:它在 reconstruction 质量上显著超过现有 feed-forward 方法
    在他们构建的 manipulation benchmark 上,Robo3R 在单目和双目设置下的 point-map estimation 都显著优于 VGGT、π³、MapAnything、DepthAnything3。比如单目 point error 从次优方法的 0.061 级别降到 0.006,scale error 也从 0.46–0.66 量级降到 0.007;双目下 point error 0.005、scale error 0.004。
  • claim 3:它在相机位姿和尺度恢复上非常强
    相对位姿预测里,Robo3R 的 RTE / RRE 分别为 0.014 / 0.013,而最佳 baseline π³ 是 0.116 / 0.073;RTA@0.03 和 RRA@0.03 也分别达到 0.951 / 0.899。作者据此声称它能稳定提供可靠相机位姿与尺度。
  • claim 4:更好的 3D 几何能显著提升下游机器人任务
    作者不只做 reconstruction 指标,还把 Robo3R 当成 3D sensing module 接到四类真实机器人应用上:
    imitation learning、sim-to-real transfer、grasp synthesis、collision-free motion planning,并声称相较 RGB、depth camera 和其他 FF reconstruction,都带来了更好的成功率,尤其在透明/反光/细小/薄物体场景下更稳。

方法是什么

1 方法框架

先做局部几何,再做位姿/尺度对齐,再放到机器人坐标系
方法是三层构建的:局部几何 + 相对位姿 + 全局尺度/坐标对齐 的分解式建模。

  1. 预测局部、scale-invariant 的 3D 几何

先在相机坐标系里预测局部点云,而不是直接回归全局 metric point。作者明确说,直接在世界坐标系里预测 metric-scale 3D points 很难,所以先做局部、尺度不变表示。

  1. 预测多视图之间的相对位姿

用 relative pose head 输出 relative translation / rotation,把多个视角的局部点云注册起来。

  1. 用 global similarity transformation 映射到 canonical robot frame

用 S.T. token + S.T. head 输出刚体变换和尺度,把注册后的点云整体变成有米制尺度、在机器人基座坐标系下的几何。

2 结构设计

图像特征和 robot state 融合
图像编码器用的是 DINOv2 ViT-L;robot state 用 MLP 投影到 1024 维,然后和图像特征做 element-wise addition 融合。之后再加上 learnable 的 S.T. tokens,送入 transformer backbone。
backbone 用的是 Alternating-Attention,交替做 global attention 和 frame-wise attention,目的是兼顾跨帧信息传播和帧内建模效率。

3 真正有新意的三个部件

(1)Masked point head
作者认为 dense prediction 容易 over-smoothing,导致点云边缘发糊、细节丢失。所以他们把 dense point prediction 拆成三件事:depth, image coordinate / ray, mask。然后通过 unprojection + masking + aggregation 得到更锐利、更细粒度的点云。这个 head 是为了直接解决“精细几何不够 sharp”的问题。
(2)Relative pose head
不是只做深度,而是显式预测多视图相对位姿。rotation 用 9D 表示,再 reshape 成3×3矩阵并用 SVD 正交化,确保是合法旋转矩阵。
(3)Keypoint + PnP 的 extrinsic refinement
这篇 paper 最“机器人化”的地方。作者不仅直接预测相机 extrinsics,还额外设计了一个基于机器人关键点的 PnP 模块。
1 预定义机器人运动链上的 3D keypoints;
2 由 robot state 通过 forward kinematics 得到这些 keypoints 的 3D 位置;
3 网络预测它们在图像中的 2D 像素位置;
4 再用 PnP 解相机外参;
5 用这个结果去 refine 全局 similarity transformation。
本质:把“机器人本体是一个已知几何结构”这个先验,转成强约束来校正相机位姿和全局对齐。

数据:Robo3R-4M

训练数据不是现成的,而是他们自己做了一个合成数据管线。
Robo3R-4M 用 NVIDIA Isaac Sim 生成,包含:100,000 scenes,4 million frames,16,911 objects,4,710 textures, 6,512 environment maps,多种 domain randomization,并记录 RGB、depth、semantic mask、robot state、camera intrinsics / extrinsics 等。
模型设计 + 合成数据工程。

怎么验证自己的 claim

1 Reconstruction benchmark
作者先搭了一个独立 benchmark:测试集包含 2,000 scenes、80,000 frames,且对象、纹理、环境图和训练集不同。
point map estimation,relative camera pose estimation
baseline 包括:VGGT,π³,MapAnything, DepthAnything3。
这一部分主要对应 claim 2 和 claim 3。

2 真实世界 qualitative evaluation
拿它和 π³、LingBot-Depth、depth camera 做真实世界定性比较。
给出的例子包括极细物体(1.5 mm,图像里只有 1–2 像素宽),透明 / 反光物体,杂乱环境、双臂灵巧手场景,声称 Robo3R 能得到更干净、更准确、更细粒度的点云。

3 四类下游机器人manipulation任务
这篇 paper 最重要的验证部分,因为它的 claim 是“服务 manipulation”。
1. imitation learning
4 个真实任务:Sweep Bean、Insert Screw、Breakfast、BiDex Pour。
Insert Screw:孔半径只比螺丝大 2 mm,需要毫米级精度;
Sweep Bean:小豆子对深度感知很困难。
MF + Ours 在:Sweep Bean: 14/16,Insert Screw: 15/16,Breakfast: 12/16,BiDex Pour: 16/16
MF + Depth Camera 在前两个高精度/小物体任务上分别是 4/16 和 7/16,差距很大。
2. sim-to-real transfer
Push Cube / Pick Cube 两个任务,Robo3R 分别做到 16/16、12/16;RGB 是 3/16、2/16,Depth Camera 是 7/16、5/16。作者据此主张 Robo3R 提供了更一致的跨域场景表示,减小了 sim-to-real gap。
3. grasp synthesis
用 AnyGrasp,输入是不同方法重建出的点云。
normal:Ours 14/16,Depth 12/16
transparent or reflective:Ours 10/16,Depth 7/16
small:Ours 11/16,Depth 6/16
其他 FF 方法直接失败,记为 “-”。
4. collision-free motion planning
用 cuRobo,结果
normal:Ours 5/5,Depth 5/5
transparent or reflective:Ours 4/5,Depth 2/5
thin:Ours 5/5,Depth 2/5
最强的论证:不是只说“几何指标更好”,而是说“这套几何真的能让机器人做得更好”。

Ablation

  1. KP + PnP vs direct extrinsics regression
    KP + PnP 比直接回归外参更好,因为ATE 从 0.018 降到 0.016,ATA@0.01 从 0.334 升到 0.442。
  2. with vs without robot state
    去掉 robot state 后,point / normal / pose 指标都略变差;作者据此说明显式 conditioning on robot state 是有益的。

说服力如何?中上到强

优点

1:论证链完整。不是停在 perception metric,而是走了几何精度 → 位姿/尺度 → 真实机器人下游任务完整链条,比很多“只做重建 benchmark”的文章更有说服力。
2:抓住了 robotics-specific priors。
robot state、forward kinematics、robot keypoints、PnP refinement、canonical robot frame,这些都不是装饰,而是在方法和评估里真正起作用。换句话说,它不是“把通用 3D 模型拿来套机器人”,而是把机器人先验结构化地写进模型。
3:结果提升不是小修小补
无论是 point error / scale error,还是真实任务里的成功率,很多提升都不是边际 improvement,而是明显跃迁。例如单目 point error 从 0.061 到 0.006,Insert Screw 从 7/16 的 depth camera 到 15/16,sim-to-real Push Cube 从 7/16 到 16/16。

缺点

1:benchmark 和训练数据都由作者自己构建
训练数据 Robo3R-4M 是作者自己合成的,benchmark 也是作者自己渲染构建的。虽然他们强调测试对象、纹理、环境和训练不同,但这仍然属于同一套数据生成哲学。因此 reconstruction 指标上的巨大领先,有一部分可能来自训练分布和任务设定的高度匹配。
2:真实世界下游评测规模不算特别大
很多 real-world 结果是 16 次 trial、5 次 trial 这种量级。它能说明趋势,但统计稳定性还不算非常强,尤其在机器人实验噪声较大的情况下。
3:一些 baseline 在下游任务里直接 “-”
其他 FF methods 因为尺度、几何精度、背景裁剪等问题无法产生可行动作,于是记为 “-”。这从结果上有利于 Robo3R,但也意味着下游比较并不是“所有方法都认真调到最佳后再公平打擂”。至少从 paper 文本看,缺少更细的失败归因和更强的 baseline adaptation。
4:真正的泛化边界还没完全验证
他们展示了对透明、反光、小物体、薄物体的鲁棒性,但相机类型和 embodiment 类型仍有限,作者自己也承认目前只支持 pinhole cameras 和有限 embodiment types。

核心思想

Robo3R 的关键借助 robot state 和 robot kinematics,把 3D 重建问题重新参数化成“局部几何 + 多视图相对位姿 + 基于机器人先验的全局尺度/坐标对齐”。
突破点主要不在 backbone 本身,而在于:把机器人先验写进模型;把输出定义成 manipulation-ready 的 canonical metric geometry;用 PnP / keypoint / FK 把世界尺度和坐标锚定住。

不足和局限

明确承认的不足:目前只支持 pinhole cameras,只覆盖 有限类型的 embodiment,未来希望通过新数据继续微调到 fisheye、panoramic 相机和更广泛的 embodiment。
几条隐含不足:
(1)对机器人本体先验的依赖很强
之所以能把相机位姿和全局尺度搞准,很大程度靠 robot state、FK、keypoint、PnP。这意味着它更像一个robot-specific reconstruction system,而不是随时可迁移到任何平台的通用 3D 模型。这个 tradeoff 是它的优势来源,也是适用范围限制。
(2)合成到真实的迁移仍然可能是脆弱点
虽然他们做了大量 domain randomization,也展示了 real-world success,但训练主干仍主要依赖 4M synthetic frames。对于新机械臂、新相机、新背景分布、特殊材质组合,是否还能维持现在的精度,证据还不够充分。
(3)任务覆盖仍偏桌面 manipulation
从文中实验看,主要是桌面、近场、稀疏视角、单/双目场景。对于更大空间、更复杂遮挡、更长距离、多机器人、多相机异构系统,这篇 paper 还没有给出足够证据。这个判断是基于它的任务设定和输入定义作出的推断。
(4)no calibration这个卖点需要谨慎理解
论文摘要和图 1 强调不需要 depth sensor 和 calibration,但它仍然利用 robot state、预定义 robot keypoints、FK 和针对机器人本体的建模。严格说,它减少的是传统深度相机外部标定依赖,不是“完全没有任何系统先验/建模成本”。这是对论文表述的合理解释。

问题定义准、系统闭环完整、下游验证到位

没有把问题定义成一个“视觉社区里看起来更大、更通用”的目标,而是精确对准了机器人操作真正需要的约束。
第一,它抓住了机器人 manipulation 真正缺的不是一般性的 3D reconstruction,而是 manipulation-ready geometry。论文开头就明确把需求写成:3D 感知要服务物理交互,因此不仅要有 3D,还要有高精度、可靠米制尺度、稳定相机位姿、canonical robot frame 下的一致表示;作者也点明现有 depth camera 容易受透明、反光、光照影响,而现有 feed-forward reconstruction 往往缺 manipulation 所需的精度和 metric consistency。也就是说,它不是在问“怎么重建得更漂亮”,而是在问“什么样的 3D 才真的能拿去抓、插、避障”。这就是定义准。
第二,它把输入条件定义得很对:不是纯视觉,而是 RGB + robot state。在机器人场景里,机器人本体的 joint state、运动链、坐标系,本来就是免费且高价值的先验。如果还把问题强行定义成“只看图像恢复世界”,那其实是在丢信息。Robo3R 直接把任务定义成“从单目或双目 RGB 图像加 robot joint angles,预测 metric-scale、fine-grained 3D reconstruction”,这比纯视觉设定更贴近真实系统。它不是为了追求“更通用”的表面叙事,而是承认机器人系统里有结构化先验,并把这些先验纳入问题本身。
第三,它把输出定义对了。论文任务定义里,输出不只是 depth,而是一整套 3D 属性,包括 depth、normalized image coordinates、relative camera poses 和 global similarity transformation,最后统一到metric-scale 的 canonical robot frame。这很关键,因为机器人下游并不需要一个抽象的“相对几何”;它需要的是能直接对接抓取、规划、模仿学习的坐标一致、尺度正确的 3D 表示。换句话说,这篇文章的问题定义不是“重建 some 3D”,而是“输出能直接被机器人消费的 3D”。
第四,它的 benchmark 和验证方式也说明这个定义是对的。论文没有停在常规 reconstruction 指标,而是一路验证到 imitation learning、sim-to-real transfer、grasp synthesis 和 collision-free motion planning,并把“透明、反光、tiny objects”这种 depth camera 的真实痛点单独拿出来强调。这个验证链条反过来说明:作者定义的问题,确实是下游任务会为之买单的问题,而不是一个和机器人控制脱节的 proxy。
1 目标准:不是泛泛追求 3D,而是追求可操作的 3D。
2 约束准:把尺度、位姿、坐标系一致性这些机器人刚需放进问题定义。
3 信息源准:承认 robot state 是核心先验,而不是假装自己在做完全无先验的纯视觉智力竞赛。
正因为这个定义很准,它的方法设计才显得顺理成章:局部几何、相对位姿、全局相似变换、robot keypoints + PnP refinement,都不是为了“堆模块”,而是在解这个定义下必然出现的几个核心子问题。

泛化边界还有限、真实评测规模不大、强依赖机器人先验和作者自建合成数据体系

它会更robot-specific,不像通用 3D 模型那样能轻松宣称自己适用于任何 embodiment、任何 camera setup。论文自己也承认目前只支持 pinhole cameras,embodiment 范围也有限。换句话说,它是因为把问题定义得更窄、更贴应用,才显得更强;这既是优点,也是边界。

posted @ 2026-03-27 16:56  asandstar  阅读(4)  评论(0)    收藏  举报