同样 70B 参数，为什么 MoE 只激活 13B 就能打平 Dense？

如果你关注大模型的发展，一定注意到一个趋势：排名靠前的开源模型越来越多采用 MoE（Mixture of Experts）架构。DeepSeek-V4 有 1.6T 总参数但只激活 49B，Qwen3 也有 MoE 版本，Mixtral 更是靠 MoE 架构一战成名。

与此同时，Llama 4、Qwen3 的 Dense 版本依然在发布。

一个自然的问题：MoE 真的比 Dense 好吗？还是又一个被炒作的概念？

我把两种架构掰开了说清楚。

本文提纲

30 秒理解核心区别
Dense 架构：简单粗暴但管用
MoE 架构：以少胜多的秘密
硬碰硬的数据对比
MoE 的三个代价
DeepSeek 的 MoE 实战经验
怎么选

30 秒理解核心区别

想象一家公司：

Dense 架构 = 100 人的团队，每次任务所有人一起上。无论问题是简单的"今天星期几"还是复杂的"证明黎曼猜想"，100 个人全部参与。简单直接，但人多开销大。
MoE 架构 = 500 人的团队，分成 64 个专业小组。每次任务只调度 6 个最相关的小组参与。总人手更多（知识储备更丰富），但每次只动用一小部分（计算量更小）。

用技术术语说：

	Dense	MoE
参数量 = 激活参数量	✅ 所有参数每次都参与计算	❌ 总参数远大于每次激活的参数
计算量	固定，等于总参数量决定	可控，只算被激活的 expert
知识容量	受限于参数量	可以堆更多参数，不增加推理成本

这就是 MoE 的核心卖点：用更多的总参数存储更多知识，但推理时只激活一小部分，控制计算成本。

Dense 架构：简单粗暴但管用

Dense 就是最经典的 Transformer——每个 token 经过每一层时，所有的 FFN（前馈网络）参数都参与计算。

输入 token
    ↓
[Attention] ← 所有注意力头都参与
    ↓
[FFN] ← 所有参数都参与计算
    ↓
[Attention]
    ↓
[FFN] ← 所有参数都参与计算
    ↓
   ...
    ↓
输出

GPT-4 之前所有主流模型（GPT-3、Llama 2、Mistral-7B）都是 Dense。它的优势很直接：

1. 工程简单

没有路由逻辑，没有负载均衡问题，没有跨节点通信瓶颈。一把梭，直接算。训练框架、推理引擎、量化方案全都成熟。

2. 稳定可预测

每个 token 的计算量完全一致，推理延迟稳定，batch 调度简单。做延迟敏感的线上服务时，可预测性本身就是优势。

3. 小模型的首选

7B、13B 这个级别，Dense 架构几乎总是更好的选择。MoE 在小参数量上的收益不足以弥补路由机制带来的额外开销。

但 Dense 的硬伤也明显：想提升能力就得加参数，加参数就得加算力。 一旦模型超过 100B，训练和推理的成本就非常恐怖。

MoE 架构：以少胜多的秘密

MoE 的核心改造在 FFN 层：不再用一个大的 FFN，而是用多个小 FFN（称为 expert），每次只选几个来算。

输入 token
    ↓
[Attention]
    ↓
[Router] ← 决定选哪些 expert
  ↙ ↓ ↘
[E1] [E2] [E3] ... [E64] ← 64 个 expert，只激活 6 个
  ↘ ↓ ↙
[合并结果]
    ↓
[Attention]
    ↓
   ...

以 DeepSeek-V4-Flash 为例：

总参数 284B，分布在大量 expert 中
每个 token 只激活 13B 参数（约 4.6%）
13B 的计算成本，284B 的知识储备

路由（Routing）是关键

Router 决定每个 token 发给哪些 expert。常见的路由策略：

Top-K 路由：计算 token 和所有 expert 的亲和度分数，选最高的 K 个。Mixtral 用 Top-2。
Hash 路由：根据 token ID 做哈希分配，确定性更强，DeepSeek-V4 在浅层用这种方式。
共享 expert：DeepSeek 创新的设计——一部分 expert 所有 token 都用（shared expert），另一部分按需调度（routed expert）。共享 expert 保证基础能力不丢失。

为什么 MoE 能"以少胜多"？

因为不同类型的任务需要的知识不同。数学推理和代码生成激活的 expert 组合完全不同，MoE 天然做到了"任务特化"——这比 Dense 的"万能钥匙"方式更高效。

硬碰硬的数据对比

拿几个代表性模型做对比：

训练效率

模型	架构	总参数	激活参数	训练 FLOPs 等效
Llama-3-70B	Dense	70B	70B	1x
Mixtral-8x7B	MoE	47B	13B	~0.3x
DeepSeek-V3	MoE	671B	37B	~0.5x
DeepSeek-V4-Flash	MoE	284B	13B	~0.2x

同样是 13B 激活参数级别，MoE 模型的总知识储备远超 Dense-13B，但训练和推理成本只相当于 Dense-13B。

推理性能

对比维度	Dense-70B	MoE (13B 激活)
推理速度	基准	快 3~5 倍
显存占用	高（所有参数常驻）	中（只需加载激活的 expert）
输出质量	强	接近甚至超过
知识广度	受 70B 限制	总参数可达数百 B

实际 benchmark 参考

DeepSeek-V4-Flash 只有 13B 激活参数，但推理性能接近 GPT-5.2 和 Gemini-3.0-Pro。同等激活参数的 Dense 模型做不到这个水平——因为 MoE 的总知识量是 Dense 的几十倍。

MoE 的三个代价

别急着下结论"MoE 完胜"。它有三个实打实的代价：

1. 显存：参数终究要装进去

推理时虽然只算 13B 参数，但所有 expert 的权重都要加载到显存里。DeepSeek-V4-Pro 的 1.6T 参数，FP16 要 3.2TB 显存——没有任何单机能装下。

解决方案：
- Expert Parallelism（专家并行）：不同 expert 放在不同 GPU 上，通过 All-to-All 通信调度
- Offloading：不常用的 expert 放 CPU/磁盘，用的时候再加载
- 量化：FP4/FP8 压缩 expert 权重，DeepSeek-V4 已经在做

但这都需要更复杂的工程。个人用户想本地跑大 MoE 模型，门槛比 Dense 高得多。

2. 通信：All-to-All 的痛

Expert Parallelism 意味着每个 token 要在 GPU 之间传来传去。跨节点通信延迟可能成为瓶颈。

DeepSeek 在 V4 技术报告里花了很大篇幅讲怎么优化这个问题——把通信和计算重叠起来（wave-based scheduling），最终实现了 1.5~1.96 倍的加速。但这背后是大量的工程投入。

3. 路由坍缩和负载不均

如果 Router 总是把 token 送到少数几个 expert，其他 expert 就浪费了。这就是"路由坍缩"问题。

DeepSeek 的解决方案：
- 去掉传统的辅助损失（auxiliary loss），改用无辅助损失的负载均衡策略
- 加轻量级的序列级平衡损失，防止单个序列内的极端不均
- 共享 expert 保证基础能力，不依赖路由质量

DeepSeek 的 MoE 实战经验

DeepSeek 是目前 MoE 架构最激进的实践者之一。从 V2 开始就用 MoE，到 V4 已经迭代了三代。他们的经验值得参考：

1. 细粒度 expert 效果更好

不用少数几个大 expert，而是用很多小 expert（DeepSeek 的 routed expert 数量远超 Mixtral 的 8 个）。这让路由更灵活，expert 的专业化程度更高。

2. 共享 expert 是必要的

所有 token 都经过共享 expert，保证通用能力。路由 expert 负责知识扩展。这个设计避免了"基础能力下降"的问题。

3. FP4 量化 expert 权重

DeepSeek-V4 把 routed expert 的权重量化到 FP4（4-bit 浮点），显存占用大幅降低，训练时也用了量化感知训练保证精度。这是 MoE 独有的优势——Dense 模型做 4-bit 量化损失更大，因为每个参数都很重要。MoE 的 routed expert 本来就不是每个都激活，量化影响更小。

4. 浅层可以全 Dense，深层用 MoE

DeepSeek-V4 的前几层 Transformer block 用 Hash 路由的 MoE 替代了原来的 Dense FFN，但核心的 MoE 处理还是在深层。这种混合策略兼顾了效率和效果。

怎么选

说了这么多，实际项目中怎么选？

选 Dense 的场景：
- 本地部署、资源受限（消费级 GPU）
- 模型规模 < 30B
- 延迟敏感、需要稳定的推理速度
- 团队缺少分布式系统经验
- 微调需求多（Dense 微调更简单直接）

选 MoE 的场景：
- 大规模服务（数据中心级别部署）
- 需要更强的知识储备，但推理成本要控制
- 模型规模 > 70B
- 有分布式训练/推理的基础设施
- 能接受更高的工程复杂度

一个值得关注的趋势：MoE 和 Dense 不是非此即彼。很多最新的模型在同一架构里混合使用——attention 层 Dense，FFN 层 MoE；浅层 Dense，深层 MoE。DeepSeek-V4 就是这种混合思路的典型。

最后说一句大实话：如果你只是想在自己的机器上跑一个模型玩玩，Dense 永远是更务实的选择。 MoE 的优势在大规模部署时才真正体现出来。

作者: itech001
来源: 公众号：AI人工智能时代
主页: https://www.theaiera.cn，每日分享最前沿的AI新闻和技术。

关注公众号，获取更多 AI 技术干货！

posted @ 2026-04-24 19:12 iTech 阅读(33) 评论(0) 收藏举报

刷新页面返回顶部

iTech's Blog

AI人工智能时代 www.theaiera.cn