摘要: MOE是Mixture of Experts的缩写,也就是混合专家模型。 在预训练一个大模型时,如果你首先设定一个期望损失,也就设定你期望的模型表现效果,那么增大模型的参数量,在达到相同的期望效果时,花费的训练代价会更少,但是在推理阶段时,更大参数量的模型花费会更大。训练只有一次,但是推理是无数次的 阅读全文
posted @ 2025-10-21 17:22 有何m不可 阅读(23) 评论(0) 推荐(0)