RT系列
Google 的 RT(Robotics Transformer)系列工作代表了从专门的机器人控制架构向大规模视觉-语言-动作(VLA)模型演进的过程。该系列不仅提升了机器人的泛化能力,还引入了语义推理、动作层次结构和高效部署等创新。
Google RT 系列工作总结与提升
1. RT-1 (Robotics Transformer 1)
RT-1 是该系列的基石,是一个拥有 35M 参数的 Transformer 模型,旨在实现实时机器人控制。
- 核心架构: 采用 ImageNet 预训练的 EfficientNet 处理图像序列,通过 FiLM 层结合自然语言指令,并使用 TokenLearner 压缩视觉标记,最后由 Transformer 输出离散化的动作。
- 主要特点: 能够在真实办公环境中执行 700 多项任务,并在见过的任务中达到 97% 的成功率。

2. RT-2 (Vision-Language-Action Model)
RT-2 将机器人控制直接建模为视觉-语言任务,是首个大规模 VLA 模型。
- 核心提升: 它将互联网规模的视觉语言数据与机器人动作数据结合,利用预训练 VLM(如 PaLI-X 或 PaLM-E)作为主干。
- 泛化与能力: 相比 RT-1,RT-2 在未见过的对象、背景和指令上的泛化能力显著提高,并展现出涌现能力,如语义推理(识别健康零食)、符号理解和简单的数学运算。

3. RT-X:跨机器人通用模型
RT-X 并不是一个全新的架构,而是基于 RT-1 和 RT-2 架构,利用大规模、多样的 Open X-Embodiment (OXE) 数据集 训练而成的通用策略模型(具体分为 RT-1-X 和 RT-2-X)。
- 数据集规模: 训练数据来源于 21 个机构合作收集的 OXE 数据集,包含 22 种不同机器人变体(Embodiments)、527 种技能和超过 100 万条机器人轨迹。
- 核心理念(正向迁移): RT-X 证明了跨平台数据能够实现“正向迁移(Positive Transfer)”。即通过学习其他机器人的经验,可以显著提升目标机器人在其原生任务上的表现。
- 主要提升:
- 在小样本任务上的突破: 对于数据较少的机器人平台,RT-1-X 的平均成功率比该机器人专有的原始算法高出 50%。
- 涌现出跨平台技能: RT-2-X 展现出了更强的通用性。例如,它能将军用机器(如 WidowX)在 Bridge 数据集学到的技能,成功应用到 Google 自己的机器人(Google Robot)上,使后者的涌现技能水平提升了约 3 倍。
- 解决“体态鸿沟(Embodiment Gap)”: 即使不同机器人的动作空间和相机参数存在显著差异,RT-X 通过统一的动作 token 化处理(如 7 自由度末端执行器动作),成功实现了知识在不同形态间的共享。

4. RT-H (Action Hierarchies Using Language)
RT-H 引入了动作层次结构,解决了直接从指令映射到动作的效率和纠错问题。
- 核心提升: 它增加了一个中间层——语言运动(Language Motion)(例如“向右旋转机械臂”)。模型先预测运动描述,再结合图像预测具体动作。
- 优势: 这种结构使模型能学习跨任务的共享结构,提高了在复杂多任务数据下的表现,并允许人类通过语言指令对机器人的运动进行干预和修正。

5. RT-Trajectory
RT-Trajectory 为机器人控制引入了视觉化的轨迹引导。
- 核心提升: 它不只依赖文本指令,还将粗略的任务轨迹草图(2D 或 2.5D)作为输入条件。
- 优势: 这使得机器人能够理解更复杂的空间运动要求,并通过视觉提示(如手绘线条或视频演示生成的路径)更精准地执行任务。

6. AutoRT
AutoRT 侧重于利用基础模型进行大规模的真实世界数据采集和机器人协调。
- 核心提升: 它利用 VLM 理解环境并利用 LLM 提出任务目标,通过“宪法式提示”确保安全,协调多台机器人自主收集数据。
- 成效: 实现了 1 名人类监督者管理 3-5 台机器人的规模化部署,极大地加速了样板数据的收集过程。

7. SARA-RT (Self-Adaptive Robust Attention)
SARA-RT 旨在解决 Transformer 架构在机器人实时部署中的计算开销问题。
- 核心提升: 提出了一种名为“向上训练(Up-training)”的方法,将 RT 模型中二次复杂度的注意力机制转换为更高效的线性注意力机制。
- 成效: 在保持高质量的同时,显著提升了 RT-2 等模型的推理速度,使其在更高分辨率的图像输入下仍能保持实时运行。

8. D4RT:面向动态环境的高效 4D 感知
D4RT 是由 Google DeepMind 提出的一种前馈模型,旨在解决从单个视频中理解和重建复杂几何形状及运动的挑战,侧重于机器人的感知基础——高效的 4D 动态场景重建。
- 核心架构: 采用统一的 Transformer 架构,通过一个全局自注意力编码器生成“全局场景表示”,再由轻量级解码器进行查询。
- 关键创新: 引入了按需查询机制(Querying Mechanism)。模型不再进行繁重的全帧解码,而是允许独立、灵活地探测空间和时间中任何点的 3D 位置,实现了空间与时间的完全解耦。
- 主要提升:
- 多任务统一: 通过单一接口同时实现深度估计、时空对应关系(4D 对应)、点云重建和全相机参数推断。
- 极致高效: 推理速度极快,例如在位姿估计上比 MegaSaM 快 100 倍,在 3D 点追踪上比 DELTA 或 SpatialTrackerV2 快 18-300 倍。
- 处理动态场景: 相比于无法理解动态物体的纯重建方法(如 MegaSaM),D4RT 能够完整追踪视频中所有像素的轨迹,填补了动态场景下的感知空白。

Google RT 系列模型对比表
总结建议:
把 RT-1 到 SARA-RT 归类为“决策与执行层”的演进。
RT-X 的出现解决了机器人领域“数据孤岛”的问题,证明了机器人模型也可以通过 X-Embodiment 训练 学习通用的物理交互规律。
而 D4RT 则是 感知与理解层 的重大升级。D4RT 提供的高效 4D 感知能力,可以为未来更复杂的机器人动态操作(如 RT-2 在复杂移动环境中的应用)提供更精准的物理世界表征。
| 论文名称 | 最主要创新点 | 模型架构 | 训练 Pipeline | 关键技术 | RL 的使用 | 与前作/同类的提升 |
|---|---|---|---|---|---|---|
| RT-1 | 实时可扩展控制 | EfficientNet + Transformer | 监督模仿学习 | TokenLearner 压缩标记 | 无 | 实现了工业级稳定性的实时机器人基准 |
| RT-2 | 首个大规模 VLA | 基于预训练 VLM (PaLI-X) | 联合微调 (Co-fine-tuning) | Actions as text tokens | 无 | 引入互联网级语义推理和涌现能力 |
| RT-X | 跨平台正向迁移 | RT-1-X / RT-2-X | 跨平台多源混合训练 | OXE 统一数据格式 | 无 | 解决了“形态鸿沟”,显著提升小样本任务表现 |
| RT-H | 动作层次化结构 | 层次化两步查询 | 自动化标注运动描述 | 语言运动 (Language Motion) | 潜在应用空间 | 提升了任务描述的共享性与人类交互修正效率 |
| RT-Trajectory | 轨迹引导泛化 | 视觉草图驱动架构 | hindsight 轨迹标注 | 2D/2.5D 轨迹草图条件化 | 无 | 增强了对未知任务(如折叠)的空间理解力 |
| AutoRT | 规模化部署系统 | 任务规划 LLM + 执行 VLA | 自主探索 + 安全宪法过滤 | Constitutional AI | 权衡自主性与安全性 | 实现了 1 对 N 的人机协作数据采集模式 |
| SARA-RT | 推理加速架构 | 线性注意力 Transformer | 向上训练 (Up-training) | 线性注意力核函数 | 无 | 在保持性能的前提下大幅降低 VLA 的延迟 |
| Q-Transformer | 离线 RL 策略提升 | 离线 TD-Learning | Autoregressive Q-Function | 保守 Q 学习 (CQL) | 核心应用:通过 Q 值预测优化策略 | 克服了 IL 对数据质量的依赖,能从错误中学习 |
| D4RT | 高效 4D 感知 | 按需查询 Transformer | 统一多任务重建 | 空间-时间点查询机制 | 感知辅助(如轨迹提取) | 极快、精准地理解物理动态场景 |

浙公网安备 33010602011771号