[PaperReading] GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots
TL;DR
Method
- System2
- System1
Training Setting
Data
Experiment
效果可视化
总结与思考
相关链接

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

link
时间：25.03
单位：NVIDIA
相关领域：Robots
被引次数：6
项目主页：
https://github.com/NVIDIA/Isaac-GR00T

TL;DR

提出一个名为GR00T N1的双系统Fundation Model，Vision Language模块(System2)理解环境中的视频与语言指令，diffusion transformer模块(System1)实时生成action控制信号。模型是端到端在机器人轨迹数据、人类视频以及生成数据上训练而来。该模型在仿真测试集上被证明超过多个机器人本体，同时在Fourier GR-1实体机器人的双手操作任务上也被证明有很好的效果。

Method

pretraining: 使用三类数据预训练 human videos, simulation and neuralgenerated data, and real robot demonstrations
模型Size: GR00T-N1-2B Fundation模型有2.2B参数量，其中NVIDIA Eagle-2 VLM多模态模型有1.34B参数量，剩余0.86B参数量在System1。

System2

10Hz运行

System1

120hz运行
使用Flow-Matching的方式预测action，类似于Diffusion只不过加噪与去噪模型不同。
训练：
噪声注入：\(Aₜᵏ = τAₜ + (1-τ)ε\), 其中\(ε∼N(0,I)\)
损失函数：\(ℒ_fn(θ)=E_τ[‖V_θ(φₜ,Aₜᵏ,qₜ)-(ε-Aₜ)‖²]\)
时间步分布：\(p(τ)=Beta((s-τ)/s;1.5,1), s=0.999\)
推理：
4步去噪：采用Aₜᵏ⁺¹ᴷ = Aₜᵏ + (1/K)V_θ(...)的欧拉积分
跨注意力机制：DiT块交替使用：
自注意力：处理噪声动作和状态嵌入
跨注意力：融合VLM的φₜ特征

Training Setting

无论Pretrain还是Posttrain，都是Freeze Text Encoder，其余参数放开训练。

Data

数据金字塔

human video数据pretrain方法

LADA: Latent Action Dynamics Alignment
IDM: Inverse Dynamics Model -> 从latent feature生成伪动作

编码器设计：
输入：当前帧xₜ和未来帧\(x_{t+H}\)组成的图像对
输出：连续潜在向量zₜ ∈ ℝᵈ
解码器设计：
输入：潜在动作zₜ和当前帧xₜ
输出：重建的未来帧\(x_{t+H}\)
使用这些latent action作为flow-matching的action target