RT系列

Google 的 RT（Robotics Transformer）系列工作代表了从专门的机器人控制架构向大规模视觉-语言-动作（VLA）模型演进的过程。该系列不仅提升了机器人的泛化能力，还引入了语义推理、动作层次结构和高效部署等创新。

Google RT 系列工作总结与提升

1. RT-1 (Robotics Transformer 1)

RT-1 是该系列的基石，是一个拥有 35M 参数的 Transformer 模型，旨在实现实时机器人控制。

核心架构： 采用 ImageNet 预训练的 EfficientNet 处理图像序列，通过 FiLM 层结合自然语言指令，并使用 TokenLearner 压缩视觉标记，最后由 Transformer 输出离散化的动作。
主要特点： 能够在真实办公环境中执行 700 多项任务，并在见过的任务中达到 97% 的成功率。

2. RT-2 (Vision-Language-Action Model)

RT-2 将机器人控制直接建模为视觉-语言任务，是首个大规模 VLA 模型。

核心提升： 它将互联网规模的视觉语言数据与机器人动作数据结合，利用预训练 VLM（如 PaLI-X 或 PaLM-E）作为主干。
泛化与能力： 相比 RT-1，RT-2 在未见过的对象、背景和指令上的泛化能力显著提高，并展现出涌现能力，如语义推理（识别健康零食）、符号理解和简单的数学运算。

3. RT-X：跨机器人通用模型

RT-X 并不是一个全新的架构，而是基于 RT-1 和 RT-2 架构，利用大规模、多样的 Open X-Embodiment (OXE) 数据集 训练而成的通用策略模型（具体分为 RT-1-X 和 RT-2-X）。

数据集规模： 训练数据来源于 21 个机构合作收集的 OXE 数据集，包含 22 种不同机器人变体（Embodiments）、527 种技能和超过 100 万条机器人轨迹。
核心理念（正向迁移）： RT-X 证明了跨平台数据能够实现“正向迁移（Positive Transfer）”。即通过学习其他机器人的经验，可以显著提升目标机器人在其原生任务上的表现。
主要提升：
- 在小样本任务上的突破： 对于数据较少的机器人平台，RT-1-X 的平均成功率比该机器人专有的原始算法高出 50%。
- 涌现出跨平台技能： RT-2-X 展现出了更强的通用性。例如，它能将军用机器（如 WidowX）在 Bridge 数据集学到的技能，成功应用到 Google 自己的机器人（Google Robot）上，使后者的涌现技能水平提升了约 3 倍。
- 解决“体态鸿沟（Embodiment Gap）”： 即使不同机器人的动作空间和相机参数存在显著差异，RT-X 通过统一的动作 token 化处理（如 7 自由度末端执行器动作），成功实现了知识在不同形态间的共享。

4. RT-H (Action Hierarchies Using Language)

RT-H 引入了动作层次结构，解决了直接从指令映射到动作的效率和纠错问题。

核心提升： 它增加了一个中间层——语言运动（Language Motion）（例如“向右旋转机械臂”）。模型先预测运动描述，再结合图像预测具体动作。
优势： 这种结构使模型能学习跨任务的共享结构，提高了在复杂多任务数据下的表现，并允许人类通过语言指令对机器人的运动进行干预和修正。

5. RT-Trajectory

RT-Trajectory 为机器人控制引入了视觉化的轨迹引导。

核心提升： 它不只依赖文本指令，还将粗略的任务轨迹草图（2D 或 2.5D）作为输入条件。
优势： 这使得机器人能够理解更复杂的空间运动要求，并通过视觉提示（如手绘线条或视频演示生成的路径）更精准地执行任务。

6. AutoRT

AutoRT 侧重于利用基础模型进行大规模的真实世界数据采集和机器人协调。

核心提升： 它利用 VLM 理解环境并利用 LLM 提出任务目标，通过“宪法式提示”确保安全，协调多台机器人自主收集数据。
成效： 实现了 1 名人类监督者管理 3-5 台机器人的规模化部署，极大地加速了样板数据的收集过程。

7. SARA-RT (Self-Adaptive Robust Attention)

SARA-RT 旨在解决 Transformer 架构在机器人实时部署中的计算开销问题。

核心提升： 提出了一种名为“向上训练（Up-training）”的方法，将 RT 模型中二次复杂度的注意力机制转换为更高效的线性注意力机制。
成效： 在保持高质量的同时，显著提升了 RT-2 等模型的推理速度，使其在更高分辨率的图像输入下仍能保持实时运行。

8. D4RT：面向动态环境的高效 4D 感知

D4RT 是由 Google DeepMind 提出的一种前馈模型，旨在解决从单个视频中理解和重建复杂几何形状及运动的挑战，侧重于机器人的感知基础——高效的 4D 动态场景重建。

核心架构： 采用统一的 Transformer 架构，通过一个全局自注意力编码器生成“全局场景表示”，再由轻量级解码器进行查询。
关键创新： 引入了按需查询机制（Querying Mechanism）。模型不再进行繁重的全帧解码，而是允许独立、灵活地探测空间和时间中任何点的 3D 位置，实现了空间与时间的完全解耦。
主要提升：
- 多任务统一： 通过单一接口同时实现深度估计、时空对应关系（4D 对应）、点云重建和全相机参数推断。
- 极致高效： 推理速度极快，例如在位姿估计上比 MegaSaM 快 100 倍，在 3D 点追踪上比 DELTA 或 SpatialTrackerV2 快 18-300 倍。
- 处理动态场景： 相比于无法理解动态物体的纯重建方法（如 MegaSaM），D4RT 能够完整追踪视频中所有像素的轨迹，填补了动态场景下的感知空白。

Google RT 系列模型对比表

总结建议：
把 RT-1 到 SARA-RT 归类为“决策与执行层”的演进。
RT-X 的出现解决了机器人领域“数据孤岛”的问题，证明了机器人模型也可以通过 X-Embodiment 训练 学习通用的物理交互规律。
而 D4RT 则是 感知与理解层 的重大升级。D4RT 提供的高效 4D 感知能力，可以为未来更复杂的机器人动态操作（如 RT-2 在复杂移动环境中的应用）提供更精准的物理世界表征。

论文名称	最主要创新点	模型架构	训练 Pipeline	关键技术	RL 的使用	与前作/同类的提升
RT-1	实时可扩展控制	EfficientNet + Transformer	监督模仿学习	TokenLearner 压缩标记	无	实现了工业级稳定性的实时机器人基准
RT-2	首个大规模 VLA	基于预训练 VLM (PaLI-X)	联合微调 (Co-fine-tuning)	Actions as text tokens	无	引入互联网级语义推理和涌现能力
RT-X	跨平台正向迁移	RT-1-X / RT-2-X	跨平台多源混合训练	OXE 统一数据格式	无	解决了“形态鸿沟”，显著提升小样本任务表现
RT-H	动作层次化结构	层次化两步查询	自动化标注运动描述	语言运动 (Language Motion)	潜在应用空间	提升了任务描述的共享性与人类交互修正效率
RT-Trajectory	轨迹引导泛化	视觉草图驱动架构	hindsight 轨迹标注	2D/2.5D 轨迹草图条件化	无	增强了对未知任务（如折叠）的空间理解力
AutoRT	规模化部署系统	任务规划 LLM + 执行 VLA	自主探索 + 安全宪法过滤	Constitutional AI	权衡自主性与安全性	实现了 1 对 N 的人机协作数据采集模式
SARA-RT	推理加速架构	线性注意力 Transformer	向上训练 (Up-training)	线性注意力核函数	无	在保持性能的前提下大幅降低 VLA 的延迟
Q-Transformer	离线 RL 策略提升	离线 TD-Learning	Autoregressive Q-Function	保守 Q 学习 (CQL)	核心应用：通过 Q 值预测优化策略	克服了 IL 对数据质量的依赖，能从错误中学习
D4RT	高效 4D 感知	按需查询 Transformer	统一多任务重建	空间-时间点查询机制	感知辅助（如轨迹提取）	极快、精准地理解物理动态场景

posted @ 2026-02-20 10:24 kirin-dev 阅读(140) 评论(0) 收藏举报

刷新页面返回顶部

kirin-dev