GR00T系列

比较维度	GR00T N1	GR00T N1.5	GR00T N1.6
Data Composition
Dataset	1. 真实机器人数据 2. 合成数据（物理模拟仿真//模型预测88h->827h反事实轨迹） 3. 网络数据（逆动力学标注LAPA/ViLLA学习隐动作）	+DreamGen ①用遥操机器人轨迹对视频世界模型进行微调 ②给定初始帧和语言指令，模型输出预期行为的视频序列 ③利用潜在动作模型或逆向动力学模型推断伪动作，得到神经轨迹序列	同N1.5
System 2
Backbone	Eagle-2	Eagle-2.5	Cosmos-2B variant
Vision Encoder	SigLIP 2	SigLIP 2	隐式
Vision Fea Layer	第12层(select_layer)	第12层(select_layer)	第16层(select_layer)
Vision Tokens	32个(num_target_vision_tokens)	32个(num_target_vision_tokens)	全量未压缩
System 1
DiT Input	1. \(q_t\) 2. \(A_t\) 3. \(t=Beta()\) 4. \(vl-embedding\) \(L=L_{fm}\)	1. \(q_t\) 2. \(A_t\) 3. \(t=Beta()\) 4. \(vl-embedding\) 5. \(Future Tokens\)(\(L_{align}\)) \(L=L_{fm}+\lambda L_{align}\)	同N1.5
DiT Depth	16(num_layers)	16(num_layers)	32(num_layers)
Action Chunk Length	16(action_horizon)	16(action_horizon)	50(action_horizon)
Action Dimensions	32(max_action_dim)	32(max_action_dim)	128(max_action_dim)
Fusion Module	VL-Self-Attention(4层)	VL-Self-Attention(4层)	无
Tuning Strategy
LLM	√	×	Tune Top 4 Layers
Vision Encoder	×	√	×
MLP Projector	√	√	√
Precision Strategy	FP32	FP32	BF16+FP32

Data
Pipeline
FLARE
GreamGen

posted @ 2026-02-09 16:53 kirin-dev 阅读(7) 评论(0) 收藏举报

刷新页面返回顶部