摘要: 可扩展 Moe 模型在 MegatronLM 核心上的训练 原论文请点击:Scalable training of Mixture-of-Experts Models with Megatron Core 笔者注:最近感觉一直在挖坑,而且还根本没时间填。自己水平不够没有什么创造性的工作,总是搬一些源 阅读全文
posted @ 2026-03-13 17:18 木木ちゃん 阅读(64) 评论(0) 推荐(0)