DeepSeek-V4 中文翻译

原标题: DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

作者: DeepSeek-AI

原文链接: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

摘要

我们发布了 DeepSeek-V4 系列的预览版本，包括两款强大的混合专家（MoE）语言模型——DeepSeek-V4-Pro（1.6T 总参数，49B 激活参数）和 DeepSeek-V4-Flash（284B 总参数，13B 激活参数）——两者均支持百万 token 的上下文长度。DeepSeek-V4 系列在架构和优化方面引入了若干关键升级：

混合注意力架构：结合压缩稀疏注意力（CSA）和重度压缩注意力（HCA），提升长上下文效率；
流形约束超连接（mHC）：增强传统的残差连接；
Muon 优化器：实现更快的收敛速度和更好的训练稳定性。

我们在超过 32T 多样化高质量 token 上对两个模型进行预训练，随后通过全面的后训练流程解锁并进一步增强其能力。DeepSeek-V4-Pro-Max（DeepSeek-V4-Pro 的最大推理努力模式）重新定义了开放模型的最优水平（SOTA），在核心任务上超越前代模型。同时，DeepSeek-V4 系列在长上下文场景中具有极高的效率。在百万 token 上下文设置下，DeepSeek-V4-Pro 仅需 DeepSeek-V3.2 的 27% 单 token 推理 FLOPs 和 10% 的 KV cache。这使得我们能够常规支持百万 token 上下文，从而使长视野任务和进一步的测试时扩展更加可行。

图1 | 左：DeepSeek-V4-Pro-Max 与其竞品的基准测试性能对比。右：DeepSeek-V4 系列与 DeepSeek-V3.2 的推理 FLOPs 和 KV cache 大小对比。

模型检查点可在 https://huggingface.co/collections/deepseek-ai/deepseek-v4 获取。

1. 引言

推理模型（如 DeepSeek-R1、OpenAI o1）的出现建立了测试时扩展的新范式，显著提升了大型语言模型（LLM）的性能。然而，这种扩展范式从根本上受到标准注意力机制二次计算复杂度的限制，为超长上下文和推理过程创造了难以承受的瓶颈。与此同时，从复杂智能体工作流到大规模跨文档分析等长视野场景和任务的出现，使得高效支持超长上下文成为未来进展的关键。

为了打破超长上下文中的效率壁垒，我们开发了 DeepSeek-V4 系列。通过架构创新，DeepSeek-V4 系列在处理超长序列的计算效率上实现了巨大飞跃。这一突破使得高效支持百万 token 上下文成为可能，为下一代 LLM 开启了百万长度上下文的新时代。我们相信，高效处理超长序列的能力解锁了测试时扩展的下一个前沿，为长视野任务的深入研究铺平了道路，并为探索在线学习等未来范式建立了必要的基础。

与 DeepSeek-V3 架构相比，DeepSeek-V4 系列保留了 DeepSeekMoE 框架和多 token 预测（MTP）策略，同时引入了几项关键的架构和优化创新：

混合注意力机制：结合压缩稀疏注意力（CSA）和重度压缩注意力（HCA）。CSA 沿序列维度压缩 KV cache，然后执行 DeepSeek 稀疏注意力（DSA）；HCA 对 KV cache 进行更激进的压缩，但保持密集注意力。
流形约束超连接（mHC）：增强传统残差连接，提升建模能力。
Muon 优化器：引入到训练中，实现更快的收敛和更好的训练稳定性。

为了实现 DeepSeek-V4 系列的高效训练和推理以及高生产力的开发，我们引入了若干基础设施优化。首先，我们设计和实现了 MoE 模块的单一融合 kernel，完全重叠计算、通信和内存访问。其次，我们采用 TileLang（一种领域特定语言 DSL）来平衡开发生产力和运行时效率。第三，我们提供高效的批不变和确定性 kernel 库，确保训练和推理之间的位级可重现性。第四，在训练框架方面，我们扩展了自动微分框架，支持张量级检查点以实现细粒度重计算控制；通过 Muon 优化器的混合 ZeRO 策略、通过重计算和融合 kernel 实现的成本效益 mHC 实现，以及两阶段上下文并行来管理压缩注意力，来提升训练效率。第五，在推理框架方面，我们设计了异构 KV cache 结构以及磁盘存储策略，以实现高效的共享前缀重用。此外，在后训练阶段，我们纳入了 MoE 专家权重和索引器 QK 路径的 FP4 量化感知训练，以减少内存和计算。

通过采用混合 CSA 和 HCA，并结合计算和存储的精度优化，DeepSeek-V4 系列在推理 FLOPs 和 KV cache 大小方面相比 DeepSeek-V3.2 显著降低。在 1M token 上下文场景中，DeepSeek-V4-Pro（尽管激活参数更多）仅需 DeepSeek-V3.2 的 27% 单 token FLOPs 和 10% 的 KV cache 大小。DeepSeek-V4-Flash 则更进一步：在 1M token 上下文设置下，仅需 DeepSeek-V3.2 的 10% 单 token FLOPs 和 7% 的 KV cache 大小。此外，DeepSeek-V4 系列的路由专家参数使用 FP4 精度。虽然当前硬件上 FP4×FP8 操作的峰值 FLOPs 与 FP8×FP8 相同，但在未来硬件上理论上可提升约 1/3 的效率，这将进一步增强 DeepSeek-V4 系列的效率优势。

预训练阶段，DeepSeek-V4-Flash 在 32T token 上训练，DeepSeek-V4-Pro 在 33T token 上训练。预训练后，这两个模型原生高效支持 1M 长度上下文。DeepSeek-V4-Flash-Base 虽然在激活参数和总参数上都远小于 DeepSeek-V3.2-Base，但在大多数基准测试上超越后者。

核心评估结果摘要：

知识：DeepSeek-V4-Pro-Max 在 SimpleQA 和 Chinese-SimpleQA 上显著优于领先开源模型。在教育知识评估（MMLU-Pro、HLE、GPQA）中略有领先。已大幅缩小与领先闭源模型 Gemini-3.1-Pro 的差距。
推理：DeepSeek-V4-Pro-Max 在标准推理基准上优于 GPT-5.2 和 Gemini-3.0-Pro，但略低于 GPT-5.4 和 Gemini-3.1-Pro，约落后前沿模型 3-6 个月。
智能体：在公开基准上与 K2.6 和 GLM-5.1 等领先开源模型持平，但略逊于前沿闭源模型。在内部评估中超过 Claude Sonnet 4.5，接近 Opus 4.5 水平。
长上下文：在 1M token 上下文窗口的合成和实际用例中表现强劲，在学术基准上甚至超过 Gemini-3.1-Pro。

2. 架构

DeepSeek-V4 系列整体保留 Transformer 架构和多 token 预测（MTP）模块，同时在 DeepSeek-V3 的基础上引入了几个关键升级：

引入流形约束超连接（mHC）增强传统残差连接；
设计混合注意力架构，通过压缩稀疏注意力（CSA）和重度压缩注意力（HCA）大幅提升长上下文效率；
采用 Muon 作为优化器。

MoE 组件仍采用 DeepSeekMoE 架构，仅对 DeepSeek-V3 做了微调。MTP 配置与 DeepSeek-V3 保持一致。

下方图2展示了 DeepSeek-V4 的整体架构。

图2 | DeepSeek-V4 系列整体架构。注意力层使用混合 CSA 和 HCA，前馈层使用 DeepSeekMoE，残差连接通过 mHC 增强。

2.1 继承自 DeepSeek-V3 的设计

混合专家（MoE）：采用 DeepSeekMoE 范式，包含细粒度路由专家和共享专家。与 DeepSeek-V3 的不同之处：

将计算亲和力分数的激活函数从 Sigmoid(·) 改为 Sqrt(Softplus(·))。
负载均衡采用无辅助损失策略，辅以轻微序列级平衡损失。
移除了路由目标节点数量的约束。
将初始几个 Transformer 块的密集 FFN 层替换为使用哈希路由（Hash routing）的 MoE 层。

多 Token 预测（MTP）：与 DeepSeek-V3 相同的 MTP 模块和目标，无需修改。

2.2 流形约束超连接（mHC）

DeepSeek-V4 系列引入 mHC 来增强相邻 Transformer 块之间的传统残差连接。

标准超连接（HC）：将残差流的宽度扩展 n_hc 倍。残差状态形状从 R^d 扩展到 R^(n_hc × d)。HC 引入三个线性映射：输入映射 A_l、残差变换 B_l 和输出映射 C_l。

流形约束残差映射：mHC 的核心创新是将残差映射矩阵 B_l 约束在双随机矩阵流形（Birkhoff 多面体）M 上，从而增强跨层信号传播的稳定性。该约束确保映射矩阵的谱范数 ≤ 1，使残差变换为非扩张的，在前向和反向传播中增加数值稳定性。

动态参数化：三个线性映射的参数是动态生成的，分解为动态（输入相关）和静态（输入无关）分量。给定输入 X_l，首先展平并归一化，然后通过可学习权重生成未约束的原始参数，最后应用约束。

参数约束应用：

输入和输出映射：使用 Sigmoid 函数确保非负性和有界性。
残差映射：通过 Sinkhorn-Knopp 算法投影到双随机矩阵流形上（先指数化确保正性，然后迭代行列归一化，迭代次数 t_max=20）。

2.3 混合注意力机制：CSA 与 HCA

图2（续）| DeepSeek-V4 架构中的注意力与 MoE 层细节。

当上下文长度达到极端规模时，注意力机制成为模型的主要计算瓶颈。DeepSeek-V4 设计了两种高效的注意力架构——CSA 和 HCA——并采用交错混合配置，大幅降低长文本场景中的注意力计算成本。

2.3.1 压缩稀疏注意力（CSA）

图3 | CSA 核心架构。它将 KV 条目数量压缩至 1/m，然后应用 DeepSeek 稀疏注意力进一步加速。此外，一组小型滑窗 KV 条目与选中的压缩 KV 条目结合以增强局部细粒度依赖。

CSA 首先将每 m 个 token 的 KV cache 压缩为一个条目，然后应用 DeepSeek 稀疏注意力（DSA），其中每个查询 token 只关注 k 个压缩的 KV 条目。

压缩 Key-Value 条目：

输入隐藏状态 H ∈ R^(n×d) 首先通过可训练参数计算两组 KV 条目 C_a、C_b 及其对应压缩权重 Z_a、Z_b。
每 m 个 KV 条目根据压缩权重和可学习位置偏置压缩为一个条目，得到 C_Comp ∈ R^(n/m × c)。
实际将序列长度压缩为 1/m。

闪电索引器（Lightning Indexer）用于稀疏选择：

对压缩的 KV 条目应用 DSA 策略，选择 top-k 压缩 KV 条目进行核心注意力计算。
以低秩方式生成索引器查询和索引分数。
使用 top-k 选择器保留一个子集用于后续核心注意力。

共享 Key-Value MQA：采用多查询注意力（MQA）方式，每个压缩 KV 条目同时作为注意力的 key 和 value。

分组输出投影：将 n_h 个输出分成 g 组，每组先投影到低维中间输出，再投影到最终注意力输出，降低计算负担。

2.3.2 重度压缩注意力（HCA）

图4 | HCA 核心架构。它执行更重的压缩，将 m' (≫ m) 个 token 的 KV 条目合并为一个。同时额外引入一组小型滑窗 KV 条目以增强局部细粒度依赖。

HCA 以更重的方式压缩 KV cache，但不使用稀疏注意力。

压缩 Key-Value 条目：

使用更大的压缩率 m' (≫ m)，不进行重叠压缩。
每 m' 个 KV 条目压缩为一个，序列长度压缩为 1/m' 倍。

共享 Key-Value MQA 和分组输出投影：与 CSA 相同的策略。

2.3.3 其他细节

查询和 KV 条目归一化：在核心注意力之前对每个头的查询和压缩 KV 条目进行 RMSNorm。
部分旋转位置嵌入（RoPE）：对每个查询向量和 KV 条目向量的最后 64 维应用 RoPE。同时对核心注意力输出应用 RoPE 以携带相对位置嵌入。
滑窗注意力附加分支：在 CSA 和 HCA 中引入辅助滑窗注意力分支，用于更好地建模局部依赖。每个查询 token 额外产生 n_win 个未压缩的 KV 条目。
注意力下沉（Attention Sink）：设置一系列可学习下沉 logit，允许每个注意力头调整其总注意力分数不等于 1。

2.3.4 效率讨论

由于采用混合 CSA 和 HCA，结合低精度计算和存储，DeepSeek-V4 系列的注意力模块在注意力 FLOPs 和 KV cache 大小方面实现了显著效率提升：

混合存储格式：RoPE 维度用 BF16，其余维度用 FP8，KV cache 大小减少近一半。
闪电索引器计算：使用 FP4 精度计算。
更小的 attention top-k：相比 DeepSeek-V3.2 选择更小的 top-k。
压缩和混合注意力：大幅减少 KV cache 大小和计算 FLOPs。

以 BF16 GQA8（头维度 128）为基线，DeepSeek-V4 系列的 KV cache 大小在 1M 上下文设置下可大幅减少到该基线的约 2%。即使与高效的 DeepSeek-V3.2 相比，DeepSeek-V4 系列仍然展现出显著优势。

2.4 Muon 优化器

DeepSeek-V4 系列对大多数模块使用 Muon 优化器。

基本配置：

AdamW 保持用于嵌入模块、预测头模块、mHC 的静态偏置和门控因子、以及所有 RMSNorm 模块的权重。
所有其他模块使用 Muon 更新。
对 Muon 参数应用权重衰减，使用 Nesterov 技巧，并重新缩放更新矩阵的 RMS。

混合 Newton-Schulz 迭代：对给定矩阵 M，通过 Newton-Schulz 迭代近似正交化为 UV^T。执行 10 次迭代分两个阶段：

前 8 步使用系数 (3.4445, -4.7750, 2.0315) 快速收敛。
最后 2 步切换为 (2, -1.5, 0.5) 稳定奇异值到 1。

避免注意力 logit 爆炸：直接在注意力查询和 KV 条目上应用 RMSNorm，不使用 QK-Clip 技术。

3. 通用基础设施

3.1 专家并行中的细粒度通信-计算重叠

图5 | 我们的 EP 方案与相关工作对比。Comet 分别重叠 Dispatch 与 Linear-1、Linear-2 与 Combine。我们的 EP 方案通过将专家分割并调度为 wave 实现更细粒度的重叠。理论加速比在 DeepSeek-V4-Flash 架构配置下评估。

MoE 可以通过专家并行（EP）加速，但 EP 需要复杂的节点间通信。为了解决 EP 中的通信瓶颈，我们提出了一种细粒度 EP 方案，将通信和计算融合到单一流水线 kernel 中。

关键洞察：通信延迟可以有效地隐藏在 MoE 层的计算中。每个 MoE 层主要分解为两个通信阶段（Dispatch 和 Combine）和两个计算阶段（Linear-1 和 Linear-2）。在单个 MoE 层内，总通信时间小于计算时间，因此计算仍然是主要瓶颈。

通信-计算比公式：令峰值计算吞吐为 C，互联带宽为 B，当 C/B ≤ V_comp/V_comm 时通信可完全隐藏。对于 DeepSeek-V4-Pro，每个 token-expert 对需 6hd FLOPs（SwiGLU gate、up、down 投影），仅需 3h 字节通信（FP8 Dispatch + BF16 Combine），化简得 C/B ≤ 2d = 6144 FLOPs/Byte。即每个 GBps 互联带宽足以隐藏 6.1 TFLOP/s 的计算通信。一旦带宽满足此阈值，就不再是瓶颈。

细粒度 EP 方案：

将专家分割并调度为 wave，每个 wave 包含一小部分专家。
当 wave 内的所有专家完成通信后，计算可以立即开始。
在稳态下，当前 wave 的计算、下一个 wave 的 token 传输和已完成专家的结果发送同时进行。

性能：在 NVIDIA GPU 和华为昇腾 NPU 上验证，相比非融合基线实现 1.50-1.73 倍加速（通用推理），延迟敏感场景（如 RL rollout）达 1.96 倍。

对硬件厂商的建议：

通信-计算比：完全重叠取决于计算-通信比，而非仅带宽。对于 DeepSeek-V4-Pro，每个 GBps 的互联带宽足以隐藏 6.1 TFLOP/s 计算的通信。
功耗预算：极端 kernel 融合使计算、内存和网络同时高负载，需足够的功耗余量。
通信原语：采用拉取式（pull-based）方法，避免细粒度推送的高通知延迟。
激活函数：建议替换 SwiGLU 为低代价元素级激活，避免指数和除法运算。

3.2 使用 TileLang 进行灵活高效的 Kernel 开发

采用 TileLang（领域特定语言 DSL）开发一组融合 kernel，替代数百个细粒度的 Torch ATen 算子，以最小代价实现最优性能。

减少调用开销（Host Codegen）：

在 IR 级别联合生成本地 kernel 和轻量级主机启动器。
将大多数主机侧逻辑移入生成的主机代码中。
CPU 侧验证开销从数十/数百微秒降至每调用不到 1 微秒。

SMT 求解器辅助形式整数分析：

集成 Z3 SMT 求解器到 TileLang 代数系统。
将 TileLang 整数表达式翻译为 Z3 的无量词非线性整数算术（QF_NIA）。
在合理资源限制下，Z3 提升整体优化性能，编译时间开销仅几秒。

数值精度和位级可重现性：

默认禁用快速数学优化，精度影响近似仅作为显式 opt-in 前端算子。
针对位级可重现性，对齐 TileLang 的代数简化和降低规则与主流 CUDA 工具链。
保守默认值下 TileLang kernel 保持竞争力，同时提供选择性松弛数值约束的旋钮。

3.3 高性能批不变与确定性 Kernel 库

除了最大化硬件利用率外，另一个关键设计目标是确保训练可重现性以及预训练、后训练和推理流水线之间的位级一致性。

批不变性（Batch Invariance）：确保任何给定 token 的输出在批处理中无论位置如何都保持位级一致。

注意力：开发双 kernel 策略。第一个 kernel 在单个 SM 内计算整个序列的注意力输出；第二个 kernel 使用多个 SM 处理最终部分填充的 wave，以减轻波量化问题。
矩阵乘法：端到端用 DeepGEMM 替代 cuBLAS。放弃 split-k 技术（不能保证批不变性），引入一组优化使矩阵乘法实现匹配甚至超越标准 split-k 的性能。

确定性（Determinism）：

注意力反向：为每个 SM 分配单独的累加缓冲区，然后对所有缓冲区进行全局确定性求和。
MoE 反向：设计每个单 rank 内的 token 顺序预处理机制，结合跨 rank 的缓冲区隔离。
mHC 中的矩阵乘法：对极小批量使用 split-k 算法时，单独输出每个 split 部分并在后续 kernel 中执行确定性规约。

3.4 训练框架

训练框架基于 DeepSeek-V3 的可扩展高效基础设施构建。为 DeepSeek-V4 引入了几项关键创新。

3.4.1 Muon 的高效实现

Muon 优化器需要完整梯度矩阵来计算参数更新，这与传统 ZeRO 优化器存在冲突。我们设计了一种混合 ZeRO bucket 分配策略：

密集参数：限制 ZeRO 并行的最大大小，使用背包算法将参数矩阵分配到各 rank。
MoE 参数：分别优化每个专家。先展平所有 SwiGLU 的下投影矩阵，后跟上投影和门控矩阵。
同形状的连续参数自动合并，实现 Newton-Schulz 迭代的批量执行。
将 MoE 梯度以随机舍入方式量化到 BF16 精度进行跨数据并行 rank 同步，通信量减半。

3.4.2 mHC 的成本效益和内存高效实现

为训练和推理精心设计和实现 mHC 的融合 kernel。
引入选择性检查点的重计算策略：重计算大多数层间隐藏状态和所有归一化层输入，避免重计算计算密集型操作。
调整 DualPipe 1F1B 重叠方案以适应增加的流水线通信。

这些优化将 mHC 的挂钟时间开销限制在重叠 1F1B 流水线阶段的 6.7%。

3.4.3 长上下文注意力的上下文并行

设计了两阶段通信方法：

每个 rank i 将其最后 m 个未压缩 KV 条目发送给 rank i+1。
执行跨所有 CP rank 的全收集操作，然后通过融合的 select-and-pad 算子重组为完整的压缩 KV 条目集。

3.4.4 扩展自动微分实现灵活激活检查点

实现张量级激活检查点机制，支持自动微分。开发者只需实现前向传播并选择性标注单个张量进行自动检查点和重计算。框架利用 TorchFX 追踪完整计算图，为每个标注张量识别最小子图进行重计算。

3.5 推理框架

主要继承 DeepSeek-V3 的推理框架，在 KV Cache 管理方面有所不同。

3.5.1 KV Cache 结构与缓存管理

图6 | DeepSeek-V4 的 KV Cache 布局。KV cache 分为两个主要组件：CSA/HCA 的经典 KV cache，以及 SWA 和未压缩尾部 token 的状态缓存。

混合注意力机制引入了多种不同类型的 KV 条目，具有不同的 KV cache 大小和更新规则。

异构 KV 条目：包括 CSA/HCA 的压缩 KV、滑窗注意力（SWA）的 KV、以及未准备好压缩的尾部 token。

状态缓存：为 SWA 和未压缩尾部 token 设计替代缓存管理机制。预分配固定且有限大小的状态缓存池，动态分配给每个序列。

稀疏注意力 kernel 协同设计：通过采用高性能稀疏注意力 kernel，不同层可以适应每个块的可变 token 数而不降低性能。每个块的原始 token 数可以是 lcm(m, m') 的任意倍数。

3.5.2 磁盘 KV Cache 存储

利用磁盘 KV cache 存储机制消除共享前缀请求的重复预填充。

CSA 和 HCA：将所有压缩 KV 条目存储到磁盘。命中存储前缀时读取并重用。
SWA：提出三种策略——完全 SWA 缓存、周期性检查点、零 SWA 缓存——在存储开销和计算冗余之间权衡。

4. 预训练

4.1 数据构建

在 DeepSeek-V3 预训练数据的基础上，构建更多样化、更高质量、更长有效上下文的训练语料：

网络来源数据：实施过滤策略移除批量自动生成和模板化内容。
数学和编程语料：仍然是训练数据的核心组件，在中训练阶段加入智能体数据增强编码能力。
多语言数据：构建更大语料库，改善对不同文化长尾知识的捕捉。
长文档数据：特别强调科学论文、技术报告等反映独特学术价值的材料。

预训练语料包含超过 32T token，涵盖数学内容、代码、网页、长文档和其他高质量类别。

分词方面：在 DeepSeek-V3 分词器基础上引入少量特殊 token 用于上下文构建，词汇量保持 128K。我们还继承了 DeepSeek-V3 的 token 拆分（token-splitting）和填充-中间（Fill-in-Middle, FIM）策略。受 Ding et al. (2024) 启发，我们将不同来源的文档打包成合适序列以最小化样本截断。与 DeepSeek-V3 不同的是，我们在预训练期间采用了样本级注意力掩码（sample-level attention masking）。

4.2 预训练设置

4.2.1 模型设置

DeepSeek-V4-Flash：

Transformer 层数：43，隐藏维度 d=4096
前两层使用纯滑窗注意力，后续层交错使用 CSA 和 HCA
CSA：压缩率 m=4，索引器查询头数=64，索引器头维度=128，top-k=512
HCA：压缩率 m'=128
查询头数=64，头维度=512，查询压缩维度=1024
输出投影组数 g=8，每组中间注意力输出维度=1024
滑窗大小 n_win=128
每个 MoE 层：1 个共享专家 + 256 个路由专家，每个专家中间隐藏维度 2048，每个 token 激活 6 个专家
MTP 深度：1
mHC 扩展因子 n_hc=4，Sinkhorn-Knopp 迭代 t_max=20
总计 284B 参数，每 token 激活 13B

DeepSeek-V4-Pro：

Transformer 层数：61，隐藏维度 d=7168
前两层使用 HCA，后续层交错使用 CSA 和 HCA
CSA：m=4，索引器查询头数=64，索引器头维度=128，top-k=1024
HCA：m'=128
查询头数=128，头维度=512，查询压缩维度=1536
输出投影组数 g=16，每组中间注意力输出维度=1024
滑窗大小 n_win=128
每个 MoE 层：1 个共享专家 + 384 个路由专家，每个专家中间隐藏维度 3072，每个 token 激活 6 个专家
mHC 扩展因子 n_hc=4，Sinkhorn-Knopp 迭代 t_max=20
总计 1.6T 参数，每 token 激活 49B

4.2.2 训练设置

DeepSeek-V4-Flash：

多数参数使用 Muon 优化器；嵌入模块、预测头模块和 RMSNorm 使用 AdamW
Muon：动量 0.95，权重衰减 0.1，更新矩阵 RMS 重缩放至 0.18
训练 32T token，批量大小从较小值调度增至 75.5M
学习率：前 2000 步线性预热，大部分训练保持 2.7×10^(-4)，最后按余弦调度衰减至 2.7×10^(-5)
序列长度从 4K 逐步扩展至 16K、64K 和 1M
前 1T token 使用密集注意力预热，在 64K 序列长度引入稀疏注意力

DeepSeek-V4-Pro：

训练 33T token，最大批量大小 94.4M
峰值学习率 2.0×10^(-4)，结束学习率 2.0×10^(-5)
开始阶段有更长的密集注意力阶段，稀疏注意力引入策略与 Flash 相同

4.2.3 缓解训练不稳定性

训练万亿参数 MoE 模型面临显著稳定性挑战。经验上，loss spike 始终与 MoE 层的异常值相关，路由机制本身似乎加剧了异常值的出现。

预期路由（Anticipatory Routing）：

解耦骨干网络和路由网络的同步更新：在步骤 t 使用当前参数进行特征计算，但使用历史参数（t-Δt）计算和应用的路径索引。
"预期性"地预计算并缓存路由索引供后续使用。
额外挂钟时间开销约 20%。
引入自动检测机制，仅在 loss spike 发生时触发短回滚并激活预期路由。

SwiGLU 裁剪：

在训练中将 SwiGLU 的线性分量裁剪到 [-10, 10] 范围，门控分量的上限裁剪到 10。
有效消除异常值，帮助稳定训练过程，且不影响性能。

4.3 评估

4.3.1 评估基准

评估涵盖四个关键维度：世界知识、语言理解与推理、编码与数学、长上下文处理。

世界知识：AGIEval、C-Eval、CMMLU、MMLU、MMLU-Redux、MMLU-Pro、MMMLU、MultiLoKo、Simple-QA verified、SuperGPQA、FACTS Parametric、TriviaQA
语言理解与推理：BigBench Hard（BBH）、DROP、HellaSwag、CLUEWSC、WinoGrande
编码与数学：BigCodeBench、HumanEval、GSM8K、MATH、MGSM、CMath
长上下文：LongBench-V2

4.3.2 评估结果

DeepSeek-V4-Flash-Base vs DeepSeek-V3.2-Base：尽管激活参数和总参数都小得多，但在广泛基准上超越 V3.2-Base，尤其是在世界知识和长上下文任务上。
DeepSeek-V4-Pro-Base：在几乎所有类别上确立了对两个前代模型的主导地位，在知识密集型评估上取得显著提升，大幅推进了长上下文理解。

5. 后训练

5.1 后训练流水线

后训练采用两阶段范式：领域专家独立培养，然后通过在策略蒸馏（OPD） 进行统一模型整合。

5.1.1 专家训练

每个目标域（数学、编码、智能体、指令跟随等）独立训练一个专家模型：

监督微调（SFT）：在高品质领域特定数据上建立基础能力。
强化学习（RL）：使用 GRPO 算法，由针对性奖励模型引导进一步优化。

推理努力（Reasoning Efforts）：
模型支持三种推理努力模式：

模式	特点	典型用例	响应格式
Non-think	快速、直观响应	日常任务、紧急反应	`</think>` 摘要
Think High	有意识的逻辑分析，较慢但更准确	复杂问题求解、规划	`<think>...</think>` 摘要
Think Max	将推理推向最大程度，慢但强大	探索模型推理能力边界	特殊系统提示 + `<think>...</think>` 摘要

表2 | 三种推理模式的详细对比。

表3 | 注入到 Think Max 模式系统提示中的指令文本。

生成式奖励模型（GRM）：
对于难以验证的任务，摒弃传统的标量奖励模型。改为使用 rubric 指导的 RL 数据并采用生成式奖励模型（GRM）评估策略轨迹。对 GRM 本身应用 RL 优化，使演员网络原生充当 GRM，实现模型评估能力和标准生成能力的联合优化。

工具调用模式：
引入新的工具调用模式，使用特殊的 |DSML| token 和基于 XML 的格式进行工具调用，有效减少转义失败和工具调用错误。

表4 | DeepSeek-V4 系列的工具调用模式格式。

交错思考（Interleaved Thinking）：

图7 | DeepSeek-V4 系列的交错思考管理。(a) 带工具的思考场景；(b) 不带工具的思考场景。

工具调用场景：所有推理内容在整个对话中完全保留，跨所有轮次保持完整的推理历史。
一般对话场景：保留原始策略，前一轮推理内容在新用户消息到达时丢弃。

注意：与 DeepSeek-V3.2 类似，通过用户消息模拟工具交互的智能体框架（如 Terminus）可能不会触发工具调用上下文路径，因此可能无法受益于增强的推理持久化。对于这类架构，我们继续推荐使用 Non-think 模型。

快速指令（Quick Instruction）：
在输入序列后附加一组专用特殊 token，每个 token 对应一个特定辅助任务（如是否需要网络搜索、意图识别等）。通过直接重用已计算的 KV cache，完全避免冗余预填充。

5.1.2 在策略蒸馏（OPD）

训练多个领域特定专家后，采用多教师 OPD 作为合并专家能力到最终模型的主要技术。

核心公式：

L_OPD(θ) = Σ w_i · D_KL(π_θ ∥ π_Ei)

其中 w_i 是分配给每个专家的权重。计算反向 KL 散度需要从学生 π_θ 中采样训练轨迹以保持策略。

全词汇 logit 蒸馏：保留完整 logit 分布计算反向 KL 损失，产生更稳定的梯度估计并确保忠实蒸馏教师知识。使用专门的 TileLang kernel 加速计算。

5.2 后训练基础设施

5.2.1 FP4 量化感知训练（QAT）

在部署时实现推理加速和减少内存流量。对以下组件应用 FP4（MXFP4）量化：

MoE 专家权重：GPU 内存占用的主要来源。
CSA 索引器中的 QK 路径：QK 激活全部以 FP4 缓存、加载和相乘。

附加优化：将索引分数从 FP32 量化为 BF16，top-k 选择器提速 2 倍，同时保持 99.7% 的 KV 条目召回率。

5.2.2 全词汇 OPD 的高效教师调度

所有教师权重卸载到集中式分布式存储，按需加载。
在前向传播期间仅将最后一层教师隐藏状态缓存在集中缓冲区。
在推理和 RL 训练的 rollout 阶段，直接使用原生 FP4 量化权重，确保模型行为与在线部署完全一致。

5.2.3 可抢占和容错的 Rollout 服务

实现 token 粒度预写日志（WAL）：每生成一个新 token，立即追加到该请求的 WAL。抢占时暂停推理引擎并保存未完成请求的 KV cache；恢复时使用持久化 WAL 和保存的 KV cache 继续解码。

5.2.4 百万 Token 上下文的缩放 RL 框架

将 rollout 数据格式分解为轻量级元数据和重型逐 token 字段。元数据加载到内存进行全局洗牌和打包布局计算。重型逐 token 字段通过共享内存数据加载器加载，消除节点内数据冗余。

5.2.5 智能体 AI 的沙箱基础设施

构建生产级沙箱平台 DeepSeek Elastic Compute（DSec），由三个 Rust 组件组成（API 网关 Apiserver、每主机代理 Edge、集群监视器 Watcher），通过自定义 RPC 协议连接，横向扩展在 3FS 分布式文件系统之上。

四层执行基底（统一接口后面）：

Function Call：无状态调用到预热容器池。
Container：完全 Docker 兼容，利用 EROFS 按需加载。
microVM：基于 Firecracker，增加 VM 级隔离。
fullVM：基于 QEMU，支持任意客户操作系统。

5.3 标准基准评估

5.3.1 评估设置

知识与推理：MMLU-Pro、GPQA、HLE、SimpleQA-Verified、Chinese-SimpleQA、LiveCodeBench-v6、CodeForces、HMMT 2026 Feb、Apex、IMOAnswerBench、PutnamBench 等。
1M Token 上下文：OpenAI MRCR、CorpusQA
智能体：Terminal Bench 2.0、SWE-Verified、SWE Multilingual、SWE-Pro、BrowseComp、MCPAtlas、GDPval-AA、Toolathlon

5.3.2 评估结果

知识：DeepSeek-V4-Pro-Max 在 SimpleQA-Verified 上以 20 个绝对百分点的优势显著优于所有现有开源基线，但落后于领先闭源模型 Gemini-3.1-Pro。

推理：DeepSeek-V4-Pro-Max 在推理基准上优于所有先前开源模型，在多项指标上匹配前沿闭源模型。在 Codeforces 上排名人类选手中第 23 位。在形式数学任务中达到 SOTA。

图8 | 实际和前沿范式下的形式推理。左：Putnam-200 Pass@8（最简工具+有限采样设置）——DeepSeek-V4-Flash-Max 达 81.00，远超 Seed-2.0-Pro 的 35.50。右：Putnam-2025（混合形式-非形式推理+计算扩展）——DeepSeek-V4 达到 120/120，与 Axiom 并列最佳。

智能体：

编码智能体任务：DeepSeek-V4-Pro 与 K2.6 和 GLM-5.1 相当。
MCPAtlas 和 Toolathlon：表现出色，展示良好的泛化能力。

1M Token 上下文：DeepSeek-V4-Pro 在 MRCR 任务上优于 Gemini-3.1-Pro，但落后于 Claude Opus 4.6。在 128K 上下文窗口内检索性能高度稳定。

图9 | DeepSeek-V4 系列在 MRCR 任务上的性能表现。

图10 | HLE 和 Terminal Bench 2.0 在不同推理努力模式下的性能。"None"表示 Non-think 模式，"Speciale"表示 DeepSeek-V3.2-Speciale 模型。

推理努力对比：如对比表所示，Max 模式（RL 中使用更长上下文和更少长度惩罚）在最具挑战性的任务上优于 High 模式。通过扩展测试时计算，DeepSeek-V4 系列相较前代实现了实质性提升。在 HLE 等推理任务上，DeepSeek-V4-Pro 展现出比 DeepSeek-V3.2 更高的 token 效率。

5.4 实际任务性能

5.4.1 中文写作

功能性写作：DeepSeek-V4-Pro 以 62.7% vs 34.1% 的整体胜率优于 Gemini-3.1-Pro。
创意写作：指令遵循 60.0% 胜率，写作质量 77.5% 胜率。
在最具挑战性的提示上，Claude Opus 4.5 仍保持优势（52.0% vs 45.9%）。

5.4.2 搜索

检索增强搜索（RAG）：DeepSeek-V4-Pro 在客观和主观问答类别上显著优于 DeepSeek-V3.2。
智能体搜索：始终优于 RAG，尤其在复杂任务上。成本仅略高于标准 RAG。

5.4.3 白领任务

图11（左）| DeepSeek-V4-Pro-Max vs Opus-4.6-Max 在分析、生成、编辑任务及整体上的胜率对比。图12（右）| 包括任务完成度、内容质量、格式美感和指令遵循在内的详细维度评分。

图14（左）| 比较纳斯达克两种定期投资策略的任务输出示例。图15（右）| 研究 2020-2025 诺贝尔科学奖并生成 PDF 分析报告的任务输出示例。

在 30 个高级中文专业任务套件上，DeepSeek-V4-Pro-Max 与 Opus-4.6-Max 比较：

总体非损失率 63%
在任务完成和内容质量维度上表现突出
主动预测用户隐含意图，擅长长篇生成
在格式美感和指令遵循方面仍有改进空间

5.4.4 代码智能体

表8 | R&D 编码基准对比（外部模型仅为评估目的而包含）。

从内部 R&D 工作负载中整理约 200 个挑战性任务，30 个保留为评估集。DeepSeek-V4-Pro 显著优于 Claude Sonnet 4.5（47%），接近 Claude Opus 4.5（70%）和 Opus 4.5 Thinking（73%）水平。

在对 DeepSeek 开发者和研究人员进行的调查（N=85，均有日常使用 V4-Pro 进行编码经验）中，52% 表示 V4-Pro 可作为默认主要编码模型，39% 倾向于肯定，不足 9% 表示否定。受访者认为 V4-Pro 在大多数任务中结果令人满意，但存在细微错误、对模糊提示的误解以及偶尔过度思考的问题。

6. 结论、局限与未来方向

结论：DeepSeek-V4 系列通过结合混合注意力架构（CSA + HCA）、mHC 和 Muon 优化器，实现了长序列效率的巨大飞跃。DeepSeek-V4-Pro-Max 重新定义了开放模型的 SOTA，DeepSeek-V4-Flash-Max 在保持高成本效益的同时达到可比推理性能。

局限：

为了追求极端长上下文效率，采用了较为复杂的架构设计（许多经过初步验证的组件和技巧）。
预期路由和 SwiGLU 裁剪虽被证明有效，但其底层原理尚不够理解。

未来方向：

进行更全面和原则性的研究，将架构提炼到最核心的设计。
积极研究训练稳定性的基础问题。
探索沿新维度的模型稀疏性（如更稀疏的嵌入模块）。
持续研究低延迟架构和系统技术。
继续迭代长视野、多轮智能体任务。
融入多模态能力。
开发更好的数据整理和合成策略，持续提升模型智能和实用性。

翻译完成日期: 2026-06-09
翻译说明：本文档为 DeepSeek-V4 技术报告的完整中文翻译，保留原文的技术术语和数学符号，力求准确传达原始技术内容。

posted @ 2026-06-09 10:36 getmoon 阅读(34) 评论(0) 收藏举报

刷新页面返回顶部

get_moon

DeepSeek-V4 中文翻译

DeepSeek-V4 中文翻译

目录

摘要

1. 引言

2. 架构

2.1 继承自 DeepSeek-V3 的设计

2.2 流形约束超连接（mHC）

2.3 混合注意力机制：CSA 与 HCA

2.3.1 压缩稀疏注意力（CSA）

2.3.2 重度压缩注意力（HCA）

2.3.3 其他细节

2.3.4 效率讨论

2.4 Muon 优化器

3. 通用基础设施

3.1 专家并行中的细粒度通信-计算重叠

3.2 使用 TileLang 进行灵活高效的 Kernel 开发

3.3 高性能批不变与确定性 Kernel 库

3.4 训练框架

3.4.1 Muon 的高效实现

3.4.2 mHC 的成本效益和内存高效实现

3.4.3 长上下文注意力的上下文并行

3.4.4 扩展自动微分实现灵活激活检查点

3.5 推理框架

3.5.1 KV Cache 结构与缓存管理

3.5.2 磁盘 KV Cache 存储

4. 预训练

4.1 数据构建

4.2 预训练设置

4.2.1 模型设置

4.2.2 训练设置

4.2.3 缓解训练不稳定性

4.3 评估

4.3.1 评估基准

4.3.2 评估结果

5. 后训练

5.1 后训练流水线

5.1.1 专家训练

5.1.2 在策略蒸馏（OPD）

5.2 后训练基础设施

5.2.1 FP4 量化感知训练（QAT）

5.2.2 全词汇 OPD 的高效教师调度

5.2.3 可抢占和容错的 Rollout 服务

5.2.4 百万 Token 上下文的缩放 RL 框架

5.2.5 智能体 AI 的沙箱基础设施

5.3 标准基准评估

5.3.1 评估设置

5.3.2 评估结果

5.4 实际任务性能

5.4.1 中文写作

5.4.2 搜索

5.4.3 白领任务

5.4.4 代码智能体

6. 结论、局限与未来方向

公告