RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
这是一篇基于 Google DeepMind 论文 "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control" 的深度技术博文。
一、RT-2:从 VLM 到 VLA —— 跨越互联网知识与机器人控制的鸿沟
这篇论文提出了一种将视觉-语言模型(VLM)转化为视觉-语言-动作(VLA)模型的训练范式,解决了机器人策略难以利用互联网规模语义知识进行泛化的核心难题。
二、摘要(Abstract-like Introduction)
在机器人学习(Robot Learning)领域,一个长期存在的挑战是泛化能力(Generalization)。传统的模仿学习(Imitation Learning)虽然能让机器人学会特定的技能(如“捡起红色的积木”),但一旦面对从未见过的物体(如“捡起那个我不认识的卡通玩具”)或复杂的语义指令(如“把快过期的食物扔掉”),模型往往束手无策。这是因为机器人数据的采集极其昂贵,数据量级远不足以覆盖真实世界的复杂性。
以往的方法试图通过组合“大模型高层规划”与“小模型底层控制”来解决这一问题,但这造成了语义理解与物理动作的割裂,底层控制器依然无法理解复杂的视觉语义。Google DeepMind 提出的 RT-2(Robotics Transformer 2) 打破了这一僵局。它首次提出 Vision-Language-Action (VLA) 模型概念,将大型视觉语言模型(VLM)直接微调为一个能输出底层动作的端到端策略。
本文将从问题建模、核心技术架构(动作 Token 化与联合微调)、实验验证以及该范式带来的涌现能力四个方面,对 RT-2 进行系统拆解,探讨其如何通过继承互联网规模的预训练知识,实现机器人控制的语义级泛化。
三、问题定义(Problem Formulation)
RT-2 的核心目标是构建一个端到端的通用机器人策略,使其不仅能执行动作,还能理解图像和文本中的语义。
- 任务类型:Vision-Language-Action (VLA) Learning
- 输入(Input):
- 视觉观测 $I \in \mathbb{R}^{H \times W \times 3}$:机器人当前视角的 RGB 图像。
- 自然语言指令 $L$:描述任务的文本(如 "Pick up the extinct animal")。
- 输出(Output):
- 动作 Token 序列 $A_t$:直接对应机器人末端执行器的位姿和状态。
- 需要注意的是,输出不是连续的向量,而是离散化的文本 Token:
$$ A_t = {x, y, z, roll, pitch, yaw, gripper} $$
其中每个分量都是词表中的一个 Token。
- 目标:
- 利用预训练的大规模 VLM 参数 $\theta_{pre}$,学习条件概率分布:
$$ P(A_t | I, L; \theta) $$ - 使得模型既能回答视觉问答(VQA)问题,又能输出控制机器人的动作序列。
- 利用预训练的大规模 VLM 参数 $\theta_{pre}$,学习条件概率分布:
四、方法概述(Method Overview)
RT-2 的整体架构建立在 Transformer 模型之上,具体实例化基于 Google 的 PaLI-X (5B/55B) 和 PaLM-E (12B) 模型。
这篇论文并非重新发明一种新的网络架构,而是提出了一种将 VLM 改造为机器人控制器的通用方法。其核心思想是:既然 VLM 擅长处理图像和生成文本 Token,如果我们把机器人的物理动作也变成“文本 Token”,那么现有的 VLM 就可以直接“说”出动作,而无需任何架构上的修改。
RT-2 通过将动作空间映射到自然语言 Token 空间,并在训练时混合互联网数据与机器人数据,实现了单一模型对“语义理解”和“物理控制”的统一建模。
五、核心技术拆解(Core Technical Contributions)
5.1 动作即语言(Actions as Language Tokenization)
- 问题:传统的 VLM 输出是文本,而机器人控制需要连续的动作向量(如笛卡尔空间的 $\Delta x, \Delta y$ 等)。通常做法是加一个独立的 Action Head,但这割裂了预训练权重与动作输出的直接联系。
- 设计:RT-2 将动作离散化为 Token。
- 将 6-DoF 姿态变化和夹爪状态的每一维离散化为 256 个 bin。
- 将这 256 个 bin 直接关联到 VLM 词表中的特定 Token(例如,数字 "1" 到 "256",或者词表中出现频率最低的 256 个词)。
- 一个动作被表示为一个字符串,例如:
"128 91 241 5 101 127 255"。
- 为什么有效:这种设计使得动作输出与自然语言生成在形式上完全统一。模型可以将“机器人动作”视为一种外语,利用 Transformer 强大的序列建模能力进行预测,最大程度保留了 VLM 的预训练特征。
5.2 联合微调(Co-Fine-Tuning)
- 问题:如果仅使用机器人数据对 VLM 进行微调,模型会发生严重的灾难性遗忘(Catastrophic Forgetting)。它可能会学会如何抓取,但忘记了它在互联网预训练中学到的“什么是泰勒·斯威夫特”或“哪个是苹果”。
- 设计:RT-2 采用联合微调策略。
- 训练 Batch 中混合了 Robot Trajectories(图像+指令 -> 动作 Token)和 Web Data(图像+问题 -> 文本回答)。
- 通过调整采样权重,确保模型在学习新技能的同时,通过持续复习互联网数据来保持其语义概括能力。
- 与以往方法的区别:以往方法(如 RT-1)主要在机器人数据上训练。RT-2 证明了保留原始 Web 数据对于迁移语义推理能力至关重要。
5.3 涌现的语义推理(Emergent Semantic Reasoning)
- 机制:由于输入(图像/文本)和输出(动作 Token)都在同一个高维语义空间中处理,RT-2 展现出了知识迁移的能力。
- 现象:模型从未在机器人数据中见过“马”这个物体,但它在 Web 数据中见过马的图片。当指令是“拿起马”时,视觉编码器能识别特征,语言解码器能关联概念,最终映射到通过其他抓取任务学到的“抓取”动作模式上。这种组合性泛化是 RT-2 最核心的突破。
六、训练范式与数据(Training & Data)
RT-2 的强大能力很大程度上源于其数据规模和训练策略。
- 数据来源:
- 机器人数据:来自 RT-1 数据集,包含 130k 条演示轨迹,由 13 台机器人在办公室厨房环境中收集,涵盖 7 种基本技能(Pick, Place, Open 等)。
- Web 数据:WebLI 数据集(约 10B 图像-文本对的子集)以及 VQA 和 Captioning 数据集。
- 训练目标:标准的交叉熵损失(Cross-Entropy Loss),即 Next-Token Prediction。模型不知道它在做“控制”还是“聊天”,它只是在预测序列中的下一个 Token。
- 输出约束:在推理(Inference)阶段,当模型生成动作部分时,会将采样范围严格限制在代表动作的 256 个 Token 内,防止模型“胡言乱语”输出无效指令。
七、实验结果(Experiments)
实验设计旨在验证 RT-2 是否真正继承了 VLM 的能力,而不仅仅是记住了训练集。
7.1 泛化能力验证
与基线模型(RT-1, VC-1, R3M 等)相比,RT-2 在常见任务上表现相当,但在未见场景中展现了压倒性优势:
- 未见物体(Unseen Objects):RT-2 能够处理训练集中从未出现的物体。
- 未见背景与环境(Unseen Backgrounds/Environments):在全新的办公桌或光照条件下,RT-2 的成功率显著高于 RT-1(例如:RT-2 得分 ~62%,RT-1 仅 ~32%)。
7.2 涌现能力(Emergent Capabilities)
这是最令人印象深刻的部分。实验测试了机器人数据中完全不存在的指令:
- 符号理解:指令如“把可乐放到数字 1 旁边”。
- 语义推理:指令如“捡起用来砸钉子的东西”(模型选择了石块)或“捡起给疲惫的人喝的饮料”(模型选择了红牛)。
- 人物识别:指令如“把可乐拿给戴眼镜的人”。
- 结果:RT-2 在这些任务上的表现是 RT-1 的 3 倍以上,证明了 Web 知识成功迁移到了物理控制中。
7.3 模型规模效应
实验对比了 5B 和 55B 参数量的模型,发现 55B 模型在泛化和涌现能力上显著更强。这表明机器人的泛化能力也遵循大模型的 Scaling Law。
八、核心洞察(Key Insights)
- 语义即控制:RT-2 证明了高级的语义理解和低级的物理控制不需要分层处理。通过足够大的模型和统一的 Token 空间,两者可以融合。
- 联合训练是关键:没有 Web 数据的联合微调,VLM 只是一个初始化较好的权重;有了联合微调,VLM 才能在控制时调用其通过 Web 数据获得的常识。
- Symbol Tuning 的有效性:将物理动作强行映射为现有的文本 Token(甚至利用无意义的数字 Token),不仅没有破坏模型的语言能力,反而让模型学会了用“动作语言”进行物理交互。
九、局限性与未来方向(Limitations & Future Work)
尽管 RT-2 效果惊人,但其实际部署仍面临挑战:
- 推理速度(Real-time Control):55B 参数的模型极其庞大,推理频率仅能达到 1-3 Hz。这对于需要高频响应的动态任务(如接住飞球)是远远不够的。
- 动作精度:离散化的 Token 动作空间限制了操作的细腻度,难以完成穿针引线等高精度任务。
- 闭环反馈依赖:RT-2 主要基于当前的图像观测,对于长时序的记忆和复杂的多步物理推理(如组装家具)仍有提升空间。
- 数据依赖:虽然利用了 Web 数据,但仍需要高质量的机器人轨迹数据来“教会”模型什么是动作。Video-to-Action(从人类视频学习动作)可能是未来的方向。
十、总结(Conclusion)
本文通过系统拆解 RT-2 的模型设计与训练范式,可以看到 Vision-Language-Action (VLA) 模型正在从传统的“感知模块 + 策略网络”走向“语义驱动的端到端决策”。RT-2 的最大意义在于它验证了一条路径:机器人的泛化能力不需要单纯依赖极其昂贵的机器人数据堆砌,而是可以通过架构创新,从已有的互联网知识宝库中“借”来智慧。 这为通用机器人的实现点亮了一盏新的明灯。

浙公网安备 33010602011771号