大模型超详细解读 (目录) - 知乎
MoE 系列超详细解读 (一):Soft MoE:一种完全可微的稀疏 Transformer - 知乎
MoE 系列超详细解读 (二):V-MoE:视觉领域的稀疏门控混合专家模型 - 知乎
MoE 系列超详细解读 (三):ST-MoE:设计稳定可迁移的稀疏专家模型 - 知乎
MoE 系列超详细解读 (四):MoE 知识蒸馏:从稀疏教师模型到密集学生模型 - 知乎