GR00T系列
| 比较维度 | GR00T N1 | GR00T N1.5 | GR00T N1.6 |
|---|---|---|---|
| Data Composition | |||
| Dataset | 1. 真实机器人数据 2. 合成数据(物理模拟仿真//模型预测88h->827h反事实轨迹) 3. 网络数据(逆动力学标注LAPA/ViLLA学习隐动作) |
+DreamGen ①用遥操机器人轨迹对视频世界模型进行微调 ②给定初始帧和语言指令,模型输出预期行为的视频序列 ③利用潜在动作模型或逆向动力学模型推断伪动作,得到神经轨迹序列 |
同N1.5 |
| System 2 | |||
| Backbone | Eagle-2 | Eagle-2.5 | Cosmos-2B variant |
| Vision Encoder | SigLIP 2 | SigLIP 2 | 隐式 |
| Vision Fea Layer | 第12层(select_layer) | 第12层(select_layer) | 第16层(select_layer) |
| Vision Tokens | 32个(num_target_vision_tokens) | 32个(num_target_vision_tokens) | 全量未压缩 |
| System 1 | |||
| DiT Input | 1. \(q_t\) 2. \(A_t\) 3. \(t=Beta()\) 4. \(vl-embedding\) \(L=L_{fm}\) |
1. \(q_t\) 2. \(A_t\) 3. \(t=Beta()\) 4. \(vl-embedding\) 5. \(Future Tokens\)(\(L_{align}\)) \(L=L_{fm}+\lambda L_{align}\) |
同N1.5 |
| DiT Depth | 16(num_layers) | 16(num_layers) | 32(num_layers) |
| Action Chunk Length | 16(action_horizon) | 16(action_horizon) | 50(action_horizon) |
| Action Dimensions | 32(max_action_dim) | 32(max_action_dim) | 128(max_action_dim) |
| Fusion Module | VL-Self-Attention(4层) | VL-Self-Attention(4层) | 无 |
| Tuning Strategy | |||
| LLM | √ | × | Tune Top 4 Layers |
| Vision Encoder | × | √ | × |
| MLP Projector | √ | √ | √ |
| Precision Strategy | FP32 | FP32 | BF16+FP32 |





浙公网安备 33010602011771号