[PaperReading] GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

link
时间:25.03
单位:NVIDIA
相关领域:Robots
被引次数:6
项目主页:
https://github.com/NVIDIA/Isaac-GR00T

TL;DR

提出一个名为GR00T N1的双系统Fundation Model,Vision Language模块(System2)理解环境中的视频与语言指令,diffusion transformer模块(System1)实时生成action控制信号。模型是端到端在机器人轨迹数据、人类视频 以及 生成数据上训练而来。该模型在仿真测试集上被证明超过多个机器人本体,同时在Fourier GR-1实体机器人的双手操作任务上也被证明有很好的效果。

Method

image
pretraining: 使用三类数据预训练 human videos, simulation and neuralgenerated data, and real robot demonstrations
模型Size: GR00T-N1-2B Fundation模型有2.2B参数量,其中NVIDIA Eagle-2 VLM多模态模型有1.34B参数量,剩余0.86B参数量在System1。

image

System2

10Hz运行

System1

120hz运行
使用Flow-Matching的方式预测action,类似于Diffusion只不过加噪与去噪模型不同。
训练:
​​噪声注入​​:\(Aₜᵏ = τAₜ + (1-τ)ε\), 其中\(ε∼N(0,I)\)
​​损失函数​​:\(ℒ_fn(θ)=E_τ[‖V_θ(φₜ,Aₜᵏ,qₜ)-(ε-Aₜ)‖²]\)
​​时间步分布​​:\(p(τ)=Beta((s-τ)/s;1.5,1), s=0.999\)
推理:
​​4步去噪​​:采用Aₜᵏ⁺¹ᴷ = Aₜᵏ + (1/K)V_θ(...)的欧拉积分
​​跨注意力机制​​:DiT块交替使用:
自注意力:处理噪声动作和状态嵌入
跨注意力:融合VLM的φₜ特征

Training Setting

无论Pretrain还是Posttrain,都是Freeze Text Encoder,其余参数放开训练。
image

Data

数据金字塔
image
image

human video数据pretrain方法

LADA: Latent Action Dynamics Alignment
IDM: Inverse Dynamics Model -> 从latent feature生成伪动作

编码器设计​​:
输入:当前帧xₜ和未来帧\(x_{t+H}\)组成的图像对
输出:连续潜在向量zₜ ∈ ℝᵈ
​​解码器设计​​:
输入:潜在动作zₜ和当前帧xₜ
输出:重建的未来帧\(x_{t+H}\)
使用这些latent action作为flow-matching的action target

神经轨迹生成流程

​​模型微调​​:
基于WAN2.1-I2V-14B视频生成模型
使用LoRA适配器在81帧480P机器人数据上微调
​​生成控制​​:
输入:初始帧 + 语言指令(如"pick up the red apple")
输出:合成视频轨迹

仿真轨迹生成方法

在物理引擎中(如DexMimicGen系统)通过算法自动生成的机器人运动
输入:少量人类演示(数十个)
处理流程:

  • 分割演示为对象中心的子任务段
  • 根据新场景中的物体位置自适应调整轨迹
  • 通过插值确保运动连续性

​​规模扩展​​:

  • 自动生成54种源-目标容器组合
  • 每种组合生成10,000条演示
  • 总计540,000条仿真轨迹(≈6,500小时)

image
部分训练数据可视化
image

Experiment

image
image

LADA: Latent Action Dynamics Alignment
IDM: Inverse Dynamics Model -> 从latent feature生成伪动作

image

效果可视化

image

总结与思考

暂无

相关链接

cool paper链接:https://papers.cool/
https://zhuanlan.zhihu.com/p/1915178980568446515
nvidia官方在B站的宣讲视频

posted @ 2025-08-14 22:20  fariver  阅读(31)  评论(0)    收藏  举报