[PaperReading] RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
link
时间:23.07
单位:DeepMind
相关领域:Robotics
被引次数:1640
项目主页:
https://robotics-transformer2.github.io/
TL;DR
首先提出VLA的概念,使用大量机器人轨迹数据与VQA数据来Finetune一个55B的VLM基座模型,将action表达为text token作为模型输出。实验表明如此设计可以提升模型的泛化性,并且也证明模型具有多阶段CoT推理能力。作者称该VLA模型为RT-2(Robotics Transformer 2)。
Method
模型
RT-2是基于两种预训练视觉语言模型(VLM)构建的:
- RT-2-PaLI-X:基于PaLI-X(Chen et al., 2023a),有5B和55B两个版本
- RT-2-PaLM-E:基于PaLM-E(Driess et al., 2023),使用12B版本
- 55B模型特指RT-2-PaLI-X-55B,是RT-2的最大版本
模型输入:视觉图像、Language指令信息
模型输出:action
Action表示
- action采用8DoF表示:: terminate(是否终止) + gripper_extension(夹爪张合程度) + 6个自由度(Δposx,Δposy,Δposz,Δrotx,Δroty,Δrotz)
- action由连续到离散的建模: 离散化方式参考于RT-1,后来OpenVLA也这么搞的,将每个自由度划分为256 bins,使用text token中的保留token或者覆盖已有低频token,从而将action变为text token来表示。
Co-Fine-Tune
- 同时使用原始网络数据和机器人数据进行微调(co-fine-tuning),而不是仅使用机器人数据进行微调
- 通过增加机器人数据在每批训练中的采样权重来平衡机器人数据和网络数据的比例
- 这种方法使策略既接触网络规模数据中的抽象视觉概念,又接触机器人动作数据,从而产生更具泛化能力的策略
Real-Time Inference
模型跑在服务器端
The largest model we evaluated, the 55B parameter RT-2-PaLI-X-55B model,
can run at a frequency of 1-3 Hz. The smaller version of that model, consisting of 5B parameters, can
run at a frequency of around 5 Hz.
如何实现连续运动控制
虽然RT-2每次输出一个完整的动作命令,但整个运动过程是通过闭环控制实现的:
- 实时反馈循环:模型以1-3Hz(55B模型)或约5Hz(5B模型)的频率运行(3.3节),每次接收当前观测并输出新的动作命令
- 动作序列生成:在Figure 1所示的框架中,模型通过持续接收视觉输入和生成动作标记来实现连续控制 (图中淡紫色剪头是过程轨迹)
- 终止信号:当"terminate"标志被触发时,表示当前任务完成
- 低层控制器:论文虽然没有详细描述低层控制器,但可以推断离散化的动作命令会被转换为连续的驱动力度,这通常由机器人的底层控制系统处理
训练数据
网络规模视觉语言数据:
基于PaLI-X和PaLM-E的原始数据集混合物(Chen et al., 2023b; Driess et al., 2023)
主要包含WebLI数据集,约10B图像-文本对,覆盖109种语言
经过筛选保留前10%的跨模态相似度得分高的样本,最终1B训练样本
还包括许多其他标注数据集(标题生成、视觉问答等)
机器人演示数据:
基于Brohan et al.(2022)的数据集
由13台移动操作机器人在17个月内于办公室厨房环境收集
每个演示轨迹都标注了自然语言指令
Experiment
Figure6 (1) 证明了使用VLM作为基座预训练模型的重要性,(2) Co-Fine-Tune能否提升泛化性
VLA模型具有一定CoT推理能力的展示
效果可视化
参见项目主页中的Video部分
总结与思考
无
相关链接
https://zhuanlan.zhihu.com/p/651670131
https://zhuanlan.zhihu.com/p/719912705
https://zhuanlan.zhihu.com/p/647436411
资料查询
折叠Title
FromChatGPT(提示词:XXX)本文来自博客园,作者:fariver,转载请注明原文链接:https://www.cnblogs.com/fariver/p/19029786