同样 70B 参数,为什么 MoE 只激活 13B 就能打平 Dense?
如果你关注大模型的发展,一定注意到一个趋势:排名靠前的开源模型越来越多采用 MoE(Mixture of Experts)架构。DeepSeek-V4 有 1.6T 总参数但只激活 49B,Qwen3 也有 MoE 版本,Mixtral 更是靠 MoE 架构一战成名。
与此同时,Llama 4、Qwen3 的 Dense 版本依然在发布。
一个自然的问题:MoE 真的比 Dense 好吗?还是又一个被炒作的概念?
我把两种架构掰开了说清楚。
本文提纲
- 30 秒理解核心区别
- Dense 架构:简单粗暴但管用
- MoE 架构:以少胜多的秘密
- 硬碰硬的数据对比
- MoE 的三个代价
- DeepSeek 的 MoE 实战经验
- 怎么选
30 秒理解核心区别
想象一家公司:
-
Dense 架构 = 100 人的团队,每次任务所有人一起上。无论问题是简单的"今天星期几"还是复杂的"证明黎曼猜想",100 个人全部参与。简单直接,但人多开销大。
-
MoE 架构 = 500 人的团队,分成 64 个专业小组。每次任务只调度 6 个最相关的小组参与。总人手更多(知识储备更丰富),但每次只动用一小部分(计算量更小)。
用技术术语说:
| Dense | MoE | |
|---|---|---|
| 参数量 = 激活参数量 | ✅ 所有参数每次都参与计算 | ❌ 总参数远大于每次激活的参数 |
| 计算量 | 固定,等于总参数量决定 | 可控,只算被激活的 expert |
| 知识容量 | 受限于参数量 | 可以堆更多参数,不增加推理成本 |
这就是 MoE 的核心卖点:用更多的总参数存储更多知识,但推理时只激活一小部分,控制计算成本。
Dense 架构:简单粗暴但管用
Dense 就是最经典的 Transformer——每个 token 经过每一层时,所有的 FFN(前馈网络)参数都参与计算。
输入 token
↓
[Attention] ← 所有注意力头都参与
↓
[FFN] ← 所有参数都参与计算
↓
[Attention]
↓
[FFN] ← 所有参数都参与计算
↓
...
↓
输出
GPT-4 之前所有主流模型(GPT-3、Llama 2、Mistral-7B)都是 Dense。它的优势很直接:
1. 工程简单
没有路由逻辑,没有负载均衡问题,没有跨节点通信瓶颈。一把梭,直接算。训练框架、推理引擎、量化方案全都成熟。
2. 稳定可预测
每个 token 的计算量完全一致,推理延迟稳定,batch 调度简单。做延迟敏感的线上服务时,可预测性本身就是优势。
3. 小模型的首选
7B、13B 这个级别,Dense 架构几乎总是更好的选择。MoE 在小参数量上的收益不足以弥补路由机制带来的额外开销。
但 Dense 的硬伤也明显:想提升能力就得加参数,加参数就得加算力。 一旦模型超过 100B,训练和推理的成本就非常恐怖。
MoE 架构:以少胜多的秘密
MoE 的核心改造在 FFN 层:不再用一个大的 FFN,而是用多个小 FFN(称为 expert),每次只选几个来算。
输入 token
↓
[Attention]
↓
[Router] ← 决定选哪些 expert
↙ ↓ ↘
[E1] [E2] [E3] ... [E64] ← 64 个 expert,只激活 6 个
↘ ↓ ↙
[合并结果]
↓
[Attention]
↓
...
以 DeepSeek-V4-Flash 为例:
- 总参数 284B,分布在大量 expert 中
- 每个 token 只激活 13B 参数(约 4.6%)
- 13B 的计算成本,284B 的知识储备
路由(Routing)是关键
Router 决定每个 token 发给哪些 expert。常见的路由策略:
- Top-K 路由:计算 token 和所有 expert 的亲和度分数,选最高的 K 个。Mixtral 用 Top-2。
- Hash 路由:根据 token ID 做哈希分配,确定性更强,DeepSeek-V4 在浅层用这种方式。
- 共享 expert:DeepSeek 创新的设计——一部分 expert 所有 token 都用(shared expert),另一部分按需调度(routed expert)。共享 expert 保证基础能力不丢失。
为什么 MoE 能"以少胜多"?
因为不同类型的任务需要的知识不同。数学推理和代码生成激活的 expert 组合完全不同,MoE 天然做到了"任务特化"——这比 Dense 的"万能钥匙"方式更高效。
硬碰硬的数据对比
拿几个代表性模型做对比:
训练效率
| 模型 | 架构 | 总参数 | 激活参数 | 训练 FLOPs 等效 |
|---|---|---|---|---|
| Llama-3-70B | Dense | 70B | 70B | 1x |
| Mixtral-8x7B | MoE | 47B | 13B | ~0.3x |
| DeepSeek-V3 | MoE | 671B | 37B | ~0.5x |
| DeepSeek-V4-Flash | MoE | 284B | 13B | ~0.2x |
同样是 13B 激活参数级别,MoE 模型的总知识储备远超 Dense-13B,但训练和推理成本只相当于 Dense-13B。
推理性能
| 对比维度 | Dense-70B | MoE (13B 激活) |
|---|---|---|
| 推理速度 | 基准 | 快 3~5 倍 |
| 显存占用 | 高(所有参数常驻) | 中(只需加载激活的 expert) |
| 输出质量 | 强 | 接近甚至超过 |
| 知识广度 | 受 70B 限制 | 总参数可达数百 B |
实际 benchmark 参考
DeepSeek-V4-Flash 只有 13B 激活参数,但推理性能接近 GPT-5.2 和 Gemini-3.0-Pro。同等激活参数的 Dense 模型做不到这个水平——因为 MoE 的总知识量是 Dense 的几十倍。
MoE 的三个代价
别急着下结论"MoE 完胜"。它有三个实打实的代价:
1. 显存:参数终究要装进去
推理时虽然只算 13B 参数,但所有 expert 的权重都要加载到显存里。DeepSeek-V4-Pro 的 1.6T 参数,FP16 要 3.2TB 显存——没有任何单机能装下。
解决方案:
- Expert Parallelism(专家并行):不同 expert 放在不同 GPU 上,通过 All-to-All 通信调度
- Offloading:不常用的 expert 放 CPU/磁盘,用的时候再加载
- 量化:FP4/FP8 压缩 expert 权重,DeepSeek-V4 已经在做
但这都需要更复杂的工程。个人用户想本地跑大 MoE 模型,门槛比 Dense 高得多。
2. 通信:All-to-All 的痛
Expert Parallelism 意味着每个 token 要在 GPU 之间传来传去。跨节点通信延迟可能成为瓶颈。
DeepSeek 在 V4 技术报告里花了很大篇幅讲怎么优化这个问题——把通信和计算重叠起来(wave-based scheduling),最终实现了 1.5~1.96 倍的加速。但这背后是大量的工程投入。
3. 路由坍缩和负载不均
如果 Router 总是把 token 送到少数几个 expert,其他 expert 就浪费了。这就是"路由坍缩"问题。
DeepSeek 的解决方案:
- 去掉传统的辅助损失(auxiliary loss),改用无辅助损失的负载均衡策略
- 加轻量级的序列级平衡损失,防止单个序列内的极端不均
- 共享 expert 保证基础能力,不依赖路由质量
DeepSeek 的 MoE 实战经验
DeepSeek 是目前 MoE 架构最激进的实践者之一。从 V2 开始就用 MoE,到 V4 已经迭代了三代。他们的经验值得参考:
1. 细粒度 expert 效果更好
不用少数几个大 expert,而是用很多小 expert(DeepSeek 的 routed expert 数量远超 Mixtral 的 8 个)。这让路由更灵活,expert 的专业化程度更高。
2. 共享 expert 是必要的
所有 token 都经过共享 expert,保证通用能力。路由 expert 负责知识扩展。这个设计避免了"基础能力下降"的问题。
3. FP4 量化 expert 权重
DeepSeek-V4 把 routed expert 的权重量化到 FP4(4-bit 浮点),显存占用大幅降低,训练时也用了量化感知训练保证精度。这是 MoE 独有的优势——Dense 模型做 4-bit 量化损失更大,因为每个参数都很重要。MoE 的 routed expert 本来就不是每个都激活,量化影响更小。
4. 浅层可以全 Dense,深层用 MoE
DeepSeek-V4 的前几层 Transformer block 用 Hash 路由的 MoE 替代了原来的 Dense FFN,但核心的 MoE 处理还是在深层。这种混合策略兼顾了效率和效果。
怎么选
说了这么多,实际项目中怎么选?
选 Dense 的场景:
- 本地部署、资源受限(消费级 GPU)
- 模型规模 < 30B
- 延迟敏感、需要稳定的推理速度
- 团队缺少分布式系统经验
- 微调需求多(Dense 微调更简单直接)
选 MoE 的场景:
- 大规模服务(数据中心级别部署)
- 需要更强的知识储备,但推理成本要控制
- 模型规模 > 70B
- 有分布式训练/推理的基础设施
- 能接受更高的工程复杂度
一个值得关注的趋势:MoE 和 Dense 不是非此即彼。很多最新的模型在同一架构里混合使用——attention 层 Dense,FFN 层 MoE;浅层 Dense,深层 MoE。DeepSeek-V4 就是这种混合思路的典型。
最后说一句大实话:如果你只是想在自己的机器上跑一个模型玩玩,Dense 永远是更务实的选择。 MoE 的优势在大规模部署时才真正体现出来。
作者: itech001
来源: 公众号:AI人工智能时代
主页: https://www.theaiera.cn,每日分享最前沿的AI新闻和技术。
关注公众号,获取更多 AI 技术干货!

浙公网安备 33010602011771号