GR00T系列

比较维度 GR00T N1 GR00T N1.5 GR00T N1.6
Data Composition
Dataset 1. 真实机器人数据
2. 合成数据(物理模拟仿真//模型预测88h->827h反事实轨迹)
3. 网络数据(逆动力学标注LAPA/ViLLA学习隐动作)
+DreamGen
①用遥操机器人轨迹对视频世界模型进行微调
②给定初始帧和语言指令,模型输出预期行为的视频序列
③利用潜在动作模型或逆向动力学模型推断伪动作,得到神经轨迹序列
同N1.5
System 2
Backbone Eagle-2 Eagle-2.5 Cosmos-2B variant
Vision Encoder SigLIP 2 SigLIP 2 隐式
Vision Fea Layer 第12层(select_layer) 第12层(select_layer) 第16层(select_layer)
Vision Tokens 32个(num_target_vision_tokens) 32个(num_target_vision_tokens) 全量未压缩
System 1
DiT Input 1. \(q_t\)
2. \(A_t\)
3. \(t=Beta()\)
4. \(vl-embedding\)
\(L=L_{fm}\)
1. \(q_t\)
2. \(A_t\)
3. \(t=Beta()\)
4. \(vl-embedding\)
5. \(Future Tokens\)(\(L_{align}\))
\(L=L_{fm}+\lambda L_{align}\)
同N1.5
DiT Depth 16(num_layers) 16(num_layers) 32(num_layers)
Action Chunk Length 16(action_horizon) 16(action_horizon) 50(action_horizon)
Action Dimensions 32(max_action_dim) 32(max_action_dim) 128(max_action_dim)
Fusion Module VL-Self-Attention(4层) VL-Self-Attention(4层)
Tuning Strategy
LLM × Tune Top 4 Layers
Vision Encoder × ×
MLP Projector
Precision Strategy FP32 FP32 BF16+FP32

Data
Pipeline
FLARE
GreamGen

posted @ 2026-02-09 16:53  kirin-dev  阅读(7)  评论(0)    收藏  举报