[PaperReading] GR-1: UNLEASHING LARGE-SCALE VIDEO GENERATIVE PRE-TRAINING FOR VISUAL ROBOT MANIPULATION

UNLEASHING LARGE-SCALE VIDEO GENERATIVE PRE-TRAINING FOR VISUAL ROBOT MANIPULATION
TL;DR
Method
- Pretrain
- Robot Data Finetuning
Experiment
总结与思考
相关链接

UNLEASHING LARGE-SCALE VIDEO GENERATIVE PRE-TRAINING FOR VISUAL ROBOT MANIPULATION

link
时间：23.12
单位：Bytedance
相关领域：Robotics
作者相关工作：https://scholar.google.com/citations?user=7u0TYgIAAAAJ&hl=en&oi=sra
被引次数：132
项目主页：https://gr1-manipulation.github.io/

TL;DR

首先将GPT的范示应用于机器人操控，输入：语言指令、观测图片序列、机器人状态序列，输出：机器动作、未来图片序列。在CALVIN benchmark上，成功率从88.9%提升至94.9%。泛化性方面，在未见过场景上，成功率53.3%提升至85.4%。

Method

整体Framework

模型Framework

Pretrain

一个Video Prediction的任务，ViT Encoder与Clip Text Encoder被冻结，在Ego4D Dataset上训练，该数据集有3,500 hours的第一人称视频数据，每个clip有对应的文字描述。

Robot Data Finetuning

加入action的输入输出分支：输入由多个MLP编码融入GR1模型，输出由GR1模型能过多个MLP直接预测action。

使用了195M的一个Transformer GPT模型 (参考Appendix)。
训练集：The training dataset contains over 20k expert trajectories paired with language instruction labels

Experiment

在真实数据上有效性、泛化性？

总结与思考

无

fariver