随笔档案「2025年10月21日」：DeepSeek-MOE原理讲解 ... - 有何m不可

2025年10月21日

摘要： MOE是Mixture of Experts的缩写，也就是混合专家模型。在预训练一个大模型时，如果你首先设定一个期望损失，也就设定你期望的模型表现效果，那么增大模型的参数量，在达到相同的期望效果时，花费的训练代价会更少，但是在推理阶段时，更大参数量的模型花费会更大。训练只有一次，但是推理是无数次的阅读全文

posted @ 2025-10-21 17:22 有何m不可阅读(98) 评论(0) 推荐(0)

gongzb

公告