DeepSeek-V4:迈向高效的百万Token上下文智能
DeepSeek-V4:迈向高效的百万Token上下文智能

摘要
我们发布了DeepSeek-V4系列的预览版本,其中包含两款性能强劲的混合专家(Mixture-of-Experts, MoE)语言模型——参数规模达1.6万亿(激活参数490亿)的DeepSeek-V4-Pro,以及参数规模为2840亿(激活参数130亿)的DeepSeek-V4-Flash——两款模型均支持百万级上下文长度。DeepSeek-V4系列在架构设计与优化策略上实现了多项关键升级:
- 融合压缩稀疏注意力(Compressed Sparse Attention, CSA)与重度压缩注意力(Heavily Compressed Attention, HCA)的混合注意力架构,提升长上下文处理效率;
- 流形约束超连接(ManifoldConstrained Hyper-Connections, mHC),对传统残差连接进行增强;
- 采用Muon优化器,实现更快的模型收敛与更稳定的训练过程。
我们基于超32万亿样的多样化高质量语料对两款模型进行预训练,随后通过完整的后训练流程解锁并进一步强化其各项能力。作为DeepSeek-V4-Pro的极致推理模式,DeepSeek-V4-ProMax重新定义了开源模型的前沿水平,在核心任务上表现优于其前代模型。同时,DeepSeek-V4系列在长上下文场景中展现出极高的效率。在百万级上下文的测试场景下,DeepSeek-V4-Pro的单token推理浮点运算量仅为DeepSeek-V3.2的27%,键值(KV)缓存占用仅为其10%。这使得我们能够稳定支持百万级上下文长度,进而让长周期任务与更广泛的测试时扩展成为可能。

引言
推理模型的出现构建了测试时间缩放的全新范式,为大语言模型(LLMs)带来了显著的性能提升。然而,这种缩放范式从根本上受到基础注意力机制二次计算复杂度的限制,这为超长上下文和推理过程造成了难以承受的瓶颈。与此同时,长跨度场景与任务的兴起——从复杂的智能体工作流到大规模跨文档分析——也使得对超长上下文的高效支持成为未来发展的关键。尽管近期开源领域的相关努力推动了通用能力的提升,但在处理超长序列时这一核心架构效率问题仍是主要阻碍,它不仅限制了测试时间缩放带来的进一步性能提升,也阻碍了对长跨度场景与任务的进一步探索。
为突破超长上下文的效率瓶颈,我们研发了DeepSeek-V4系列模型,包括参数规模达1.6万亿(激活490亿)的DeepSeek-V4-Pro预览版,以及参数规模达2840亿(激活130亿)的DeepSeek-V4-Flash预览版。通过架构创新,DeepSeek-V4系列在处理超长序列的计算效率上实现了跨越式提升。这一突破实现了对百万级token上下文长度的高效支持,为下一代大语言模型开启了百万长度上下文的新时代。我们相信,高效处理超长序列的能力将解锁测试阶段规模扩展的新领域,为长周期任务的深度研究铺平道路,并为探索在线学习等未来范式奠定必要基础。
与 DeepSeek-V3架构相比,DeepSeek-V4系列保留了DeepSeekMoE框架和多令牌预测(MTP)策略,同时在架构与优化方面引入了多项关键创新。为提升长上下文效率,我们设计了一种融合压缩稀疏注意力(CSA)与重度压缩注意力(HCA)的混合注意力机制。CSA沿序列维度压缩键值(KV)缓存,随后执行DeepSeek稀疏注意力(DSA);而HCA对键值缓存采用更激进的压缩方式,但保留密集注意力机制。为增强建模能力,我们融入了流形约束超连接(mHC),对传统残差连接进行了升级。此外,我们在DeepSeek-V4系列的训练中引入了Muon优化器,实现了更快的收敛速度并提升了训练稳定性。
为实现 DeepSeek-V4 系列模型的高效训练与推理,以及高效的开发流程,我们引入了多项基础设施优化措施。首先,我们为混合专家(MoE)模块设计并实现了单一融合内核,可实现计算、通信与内存访问的完全重叠。其次,我们采用领域特定语言(DSL)TileLang,在开发效率与运行时效率之间取得平衡。第三,我们提供高效的批处理不变性及确定性内核库,确保训练与推理过程中逐位结果的可复现性。第四,我们针对混合专家(MoE)专家权重和索引器的查询-键(QK)路径引入 FP4 量化感知训练,以降低内存占用与计算量。第五,在训练框架层面,我们为自动求导(autograd)框架扩展了张量级检查点功能,实现细粒度的重计算控制;同时,通过适配 Muon 优化器的混合 ZeRO 策略、借助重计算与融合内核实现高性价比的微混合精度(mHC)计算,以及采用两阶段上下文并行机制处理压缩注意力,全面提升训练效率。最后,在推理框架层面,我们设计了异构键值(KV)缓存结构,并结合磁盘存储策略,实现高效的共享前缀复用。
通过结合混合 CSA 与 HCA 技术,同时对计算和存储进行精准优化,DeepSeek-V4 系列相比 DeepSeek-V3.2,显著降低了推理 FLOPs(浮点运算次数),并大幅缩减了 KV 缓存大小,在长上下文场景中效果尤为突出。图 1 右侧展示了 DeepSeek-V3.2 与 DeepSeek-V4 系列的单 token 推理 FLOPs 估算值及累计 KV 缓存大小。在 100 万 token 上下文场景下,即便激活参数数量更多的 DeepSeek-V4-Pro,其单 token FLOPs(以等效 FP8 FLOPs 计量)也仅为 DeepSeek-V3.2 的 27%,KV 缓存大小仅为其 10%。此外,激活参数数量更少的 DeepSeek-V4-Flash 进一步提升了效率:在 100 万 token 上下文设置下,其单 token FLOPs 仅为 DeepSeek-V3.2 的 10%,KV 缓存大小仅为其 7%。同时,DeepSeek-V4 系列的路由专家参数采用 FP4 精度。目前,FP4×FP8 运算的峰值 FLOPs 与现有硬件上的 FP8×FP8 运算持平,但在未来硬件上,理论上可实现 1/3 的效率提升,这将进一步提升 DeepSeek-V4 系列的效率。
在预训练阶段,我们分别在 32 万亿个标记上训练了 DeepSeek-V4-Flash,在 33 万亿个标记上训练了 DeepSeek-V4-Pro。预训练完成后,这两个模型能够原生且高效地支持 100 万长度的上下文。在我们的内部评估中,DeepSeek-V4-Flash-Base 凭借更参数高效的设计,已在大多数基准测试中超越 DeepSeek-V3.2-Base。DeepSeek-V4-Pro-Base 进一步扩大了这一优势,在 DeepSeek 基础模型中树立了新的性能标杆,在推理、编码、长上下文和世界知识任务上均实现了全面领先。
DeepSeek-V4系列的训练后流程采用两阶段范式:先独立培育领域专属专家模型,再通过在线策略蒸馏实现模型的统一整合。首先,针对数学、编程、智能体、指令遵循等各个目标领域,分别独立训练专属的专家模型。基础模型先在高质量的领域专属数据上进行有监督微调(SFT),以建立基础能力。随后,采用分组相对策略优化(GRPO)算法应用强化学习(RL),结合针对特定成功标准定制的奖励模型,进一步优化模型以适配领域相关的行为表现。此阶段会产出一批多样化的专业专家模型,各模型均在对应领域表现出色。最后,为整合这些差异化能力,通过在线策略蒸馏训练出一个统一的大模型,该统一模型作为学生模型,学习以优化与教师模型之间的反向KL散度损失。
核心评估结果总结
-
知识能力:在对全球通用知识的评估中,DeepSeek-V4-Pro 的最大推理能力模式 DeepSeek-V4-Pro-Max 在 SimpleQA 和 Chinese-SimpleQA基准测试中显著优于主流开源模型。在教育知识方面——通过 MMLU-Pro、HLE 和 GPQA进行评估——DeepSeek-V4-Pro-Max 相较于其开源同类模型展现出微弱优势。尽管在这些基于知识的评估中仍落后于主流闭源模型 Gemini-3.1-Pro,但 DeepSeek-V4-Pro-Max 已大幅缩小了与该模型的差距。
-
推理:通过扩展推理token,DeepSeek-V4-Pro-Max在标准推理基准测试中展现出优于GPT-5.2 和 Gemini-3.0-Pro的性能。不过,其性能略逊于GPT-5.4 和 Gemini3.1-Pro,这表明其发展进度比当前最前沿的顶级模型落后约3至6个月。此外,DeepSeek-V4-Flash-Max取得了相当的性能达到 GPT-5.2 和 Gemini-3.0-Pro 水平,使其成为处理复杂推理任务的高性价比架构。
-
智能体:在公开基准测试中,DeepSeek-V4-Pro-Max 与 Kimi-K2.6、GLM-5.1 等主流开源模型表现相当,但略逊于前沿闭源模型。在我们的内部评估中,DeepSeek-V4-Pro-Max 的性能优于 Claude Sonnet 4.5,且接近 Opus 4.5 的水平。
-
长上下文:DeepSeek-V4-Pro-Max 凭借 100 万 token 的上下文窗口,在合成场景和实际用例中表现出色,在学术基准测试中甚至超越了 Gemini-3.1-Pro。
-
DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 对比:DeepSeek-V4-Flash-Max 因参数规模更小,在知识评估中表现出更低的性能。不过,当分配更大的思考预算时,它在推理任务上能取得相当的结果。在智能体评估中,尽管 DeepSeek-V4-Flash-Max 在多个基准测试上与 DeepSeek-V4-Pro-Max 表现相当,但在更复杂、高难度的任务上,它仍落后于参数规模更大的后者。
架构
总体而言,DeepSeek-V4 系列保留了 Transformer架构和多令牌预测(MTP)模块,同时对 DeepSeek-V3 进行了多项关键升级:
-
首先,我们引入了流形约束超连接(mHC)来强化传统的残差连接;
-
其次,我们设计了一种混合注意力架构,通过压缩稀疏注意力和重度压缩注意力大幅提升了长上下文效率。
-
第三,我们采用 Muon作为优化器。对于混合专家(MoE)模块,我们仍采用 DeepSeekMoE架构,仅对 DeepSeek-V3 做了少量调整。多令牌预测(MTP)配置与 DeepSeek-V3 保持一致。所有其他未明确说明的细节均遵循 DeepSeekV3中设定的配置。图 2 展示了 DeepSeek-V4 的整体架构,具体细节如下所述。

继承自DeepSeek-V3的设计
专家混合模型。与此前的 DeepSeek 系列模型一致,DeepSeek-V4 系列在前馈网络(FFNs)中也采用了 DeepSeekMoE 架构,该架构设置了细粒度的路由专家与共享专家。与 DeepSeek-V3 不同的是,我们将计算亲和度分数的激活函数从 Sigmoid(·) 改为 Sqrt(Softplus(·))。在负载均衡方面,我们同样采用了无辅助损失的策略,并辅以一种轻量级的序列级平衡损失,以避免单个序列内出现极端不均衡。针对 DeepSeek-V4,我们移除了对路由目标节点数量的限制,并重新设计了并行策略以维持训练效率。此外,相较于 DeepSeek-V3,我们将前若干个 Transformer 模块中的密集前馈网络层替换为采用哈希路由的专家混合层。哈希路由策略根据输入标记 ID 的预定义哈希函数,确定每个标记的目标专家。
多令牌预测。作为 DeepSeek-V3,DeepSeek-V4 系列同样设置了多令牌预测(MTP)模块和目标。鉴于多令牌预测(MTP)策略已在 DeepSeek-V3 中得到验证,我们对 DeepSeek-V4 系列采用了相同的策略,未做任何修改。
流形约束超连接
如图2所示,DeepSeek-V4系列模型整合了流形约束超连接(mHC),以强化相邻Transformer模块间的传统残差连接。与普通超连接(HC)相比,流形约束超连接的核心思路是将残差映射约束在特定流形上,从而在保留模型表达能力的同时,提升信号跨层传播的稳定性。本小节将简要介绍标准超连接,并阐述我们如何设计流形约束超连接以实现稳定训练。
标准超连接。标准超连接将残差流的宽度扩展了 \(n_{\text{hc}}\) 倍。具体而言,残差流的形状从 $ \mathbb{R}^d $ 扩展为 $ \mathbb{R}^{n_{\text{hc}} \times d} $,其中 $ d $ 是实际层输入的隐藏维度。设 $ X_l = [x_{l,1}; \dots; x_{l, n_{\text{hc}}}]^T \in \mathbb{R}^{n_{\text{hc}} \times d} $ 为第 $ l $ 层之前的残差状态。超连接引入了三个线性映射:输入映射 $ A_l \in \mathbb{R}^{1 \times n_{\text{hc}}} $、残差变换 $ B_l \in \mathbb{R}^{n_{\text{hc}} \times n_{\text{hc}}} $ 和输出映射 $ C_l \in \mathbb{R}^{n_{\text{hc}} \times 1} $。残差状态的更新公式为:
其中 $ F_l $ 表示第 $ l $ 层(例如一个混合专家层),其输入和输出的形状均为 $ \mathbb{R}^d $。注意,实际层输入 $ A_l X_l \in \mathbb{R}^d $ 也是 $ d $ 维的,因此扩展的残差宽度不会影响内部层的设计。超连接将残差宽度与实际隐藏维度解耦,提供了一种计算开销极小的互补缩放轴,因为 $ n_{\text{hc}} $ 通常远小于隐藏维度 $ d $。然而,尽管超连接在提升模型性能方面展现了潜力,我们发现堆叠多层时训练常出现数值不稳定性,这阻碍了超连接的扩展。
流形约束的残差映射。mHC的核心创新在于将残差映射矩阵\(B_l\)约束在双随机矩阵流形(即Birkhoff多面体)\(\mathcal{M}\)上,从而增强信号跨层传播的稳定性:
该约束确保映射矩阵的谱范数\(\|B_l\|_2\)被上界1所限定,因此残差变换具有非扩张性,从而在前向传播和反向传播过程中均提升数值稳定性。此外,集合\(\mathcal{M}\)对乘法封闭,这保证了深度堆叠mHC时的稳定性。同时,输入变换\(A_l\)与输出变换\(C_l\)也通过Sigmoid函数被约束为非负且有界,以避免信号抵消的风险。
动态参数化。三个线性映射的参数是动态生成的,这些参数被分解为一个动态(依赖输入)分量和一个静态(独立于输入)分量。给定输入 \(X_l \in \mathbb{R}^{n_{\text{hc}} \times d}\),首先将其展平并归一化:\(\hat{X}_l = \text{RMSNorm}(\text{vec}(X_l)) \in \mathbb{R}^{1 \times n_{\text{hc}} d}\)。随后,我们遵循传统HC方法生成无约束的原始参数 \(\tilde{A}_l \in \mathbb{R}^{1 \times n_{\text{hc}}}\)、\(\tilde{B}_l \in \mathbb{R}^{n_{\text{hc}} \times n_{\text{hc}}}\) 和 \(\tilde{C}_l \in \mathbb{R}^{n_{\text{hc}} \times 1}\):
其中 \(W_{\text{pre}}^l, W_{\text{post}}^l \in \mathbb{R}^{n_{\text{hc}} d \times n_{\text{hc}}}\) 和 \(W_{\text{res}}^l \in \mathbb{R}^{n_{\text{hc}} d \times n_{\text{hc}}^2}\) 是用于生成动态分量的可学习参数;\(\text{Mat}(\cdot)\) 将大小为 \(1 \times n_{\text{hc}}^2\) 的向量重塑为 \(n_{\text{hc}} \times n_{\text{hc}}\) 的矩阵;\(S_{\text{pre}}^l \in \mathbb{R}^{1 \times n_{\text{hc}}}\)、\(S_{\text{post}}^l \in \mathbb{R}^{n_{\text{hc}} \times 1}\) 和 \(S_{\text{res}}^l \in \mathbb{R}^{n_{\text{hc}} \times n_{\text{hc}}}\) 是可学习的静态偏置;\(\alpha_{\text{pre}}^l, \alpha_{\text{res}}^l, \alpha_{\text{post}}^l \in \mathbb{R}\) 是可学习的门控因子,初始化为较小值。
应用参数约束。在获得无约束的原始参数 \(\tilde{A}_l\)、\(\tilde{B}_l\)、\(\tilde{C}_l\) 后,我们对其施加前述约束以增强数值稳定性。具体而言,对于输入映射和输出映射,采用Sigmoid函数 \(\sigma(\cdot)\) 确保其非负性与有界性:
对于残差映射 \(\tilde{B}_l\),则将其投影至双随机矩阵流形 \(\mathcal{M}\)。该过程通过Sinkhorn-Knopp算法实现:首先对 \(\tilde{B}_l\) 应用指数函数以保障正性,得到 \(M^{(0)} = \exp(\tilde{B}_l)\);随后迭代进行列归一化与行归一化:
其中 \(T_r\) 与 \(T_c\) 分别表示行归一化与列归一化。该迭代收敛至约束后的双随机矩阵 \(B_l = M^{(t_{\text{max}})}\)。我们选取 \(t_{\text{max}} = 20\) 作为实际应用中的迭代次数。
混合注意力机制:CSA 与 HCA
当上下文长度达到极端规模时,注意力机制成为模型中最主要的计算瓶颈。针对DeepSeek-V4,我们设计了两种高效的注意力架构——压缩稀疏注意力(CSA)和重度压缩注意力(HCA),并采用两者交替的混合配置,大幅降低了长文本场景下的注意力计算成本。CSA融合了压缩与稀疏注意力两种策略:首先将每m个令牌的键值(KV)缓存压缩为一个条目,随后应用DeepSeek稀疏注意力(DSA),使每个查询令牌仅关注k个压缩后的KV条目。HCA则致力于实现极致压缩,将每m′(远大于m)个令牌的KV缓存合并为单一条目。CSA 与 HCA的混合架构显著提升了DeepSeek-V4系列在长上下文场景下的效率,使得百万级令牌的上下文在实际应用中成为可能。本节将阐述混合注意力架构的核心技术,同时为明确具体细节提供开源实现。
压缩稀疏注意力
CSA的核心架构如图3所示,该机制首先将每m个令牌的KV缓存压缩为一个条目,随后应用DeepSeek稀疏注意力实现进一步加速。

压缩键值条目。 设 $ H \in \mathbb{R}^{n \times d} $ 为输入隐藏状态序列,其中 $ n $ 为序列长度,$ d $ 为隐藏层维度。CSA首先计算两组KV条目 $ C_a, C_b \in \mathbb{R}^{n \times c} $ 及其对应的压缩权重 $ Z_a, Z_b \in \mathbb{R}^{n \times c} $,其中 $ c $ 为注意力头维度:
其中 $ W_a^{KV}, W_b^{KV}, W_a^Z, W_b^Z \in \mathbb{R}^{d \times c} $ 为可训练参数。随后,$ C_a $ 和 $ C_b $ 中每 $ m $ 个KV条目根据其压缩权重和可学习位置偏置 $ B_a, B_b \in \mathbb{R}^{m \times c} $ 被压缩为单一条目,生成 $ C^{\text{Comp}} \in \mathbb{R}^{\frac{n}{m} \times c} $。各压缩条目 $ C_i^{\text{Comp}} \in \mathbb{R}^c $ 的计算方式如下:
其中 $ \odot $ 表示哈达玛积;\(\text{Softmax}_{\text{row}}(\cdot)\) 表示沿行维度执行Softmax操作,对来自 $ Z_a $ 和 $ Z_b $ 的共 $ 2m $ 个元素进行归一化。当 $ i = 0 $ 时,$ Z_b^{m(i-1):mi-1} $ 以负无穷填充,$ C_b^{m(i-1):mi-1} $ 以零填充。需注意,每个 $ C_i^{\text{Comp}} $ 由 $ 2m $ 个KV条目推导得出,但用于 $ C_i^{\text{Comp}} $ 的 $ C_b $ 索引与用于 $ C_{i-1}^{\text{Comp}} $ 的 $ C_a $ 索引存在重叠。因此,CSA实际上将序列长度压缩至原来的 $ \frac{1}{m} $。
用于稀疏选择的闪电索引器。在获得压缩后的KV条目 \(C^{\text{Comp}}\) 后,CSA应用DSA策略,从压缩KV条目中选取top-k条目用于核心注意力计算。首先,CSA采用与 \(C^{\text{Comp}}\) 相同的压缩操作,获取压缩后的索引器键 \(K^{\text{IComp}} \in \mathbb{R}^{\frac{n}{m} \times c_I}\),其中 \(c_I\) 为索引器头维度。随后,对于查询令牌 \(t\),我们以低秩方式生成索引器查询 \(\{q_{t,1}^I; q_{t,2}^I; \dots; q_{t,n_h^I}^I\}\):
其中 \(h_t \in \mathbb{R}^d\) 为查询令牌 \(t\) 的输入隐藏状态;\(c_t^Q \in \mathbb{R}^{d_c}\) 为查询的压缩潜变量向量;\(d_c\) 表示查询压缩维度;\(n_h^I\) 表示索引器查询头的数量;\(W^{\text{DQ}} \in \mathbb{R}^{d \times d_c}\) 和 \(W^{\text{IUQ}} \in \mathbb{R}^{d_c \times c_I n_h^I}\) 分别为索引器查询的下投影和上投影矩阵。接着,查询令牌 \(t\) 与前一压缩块 \(s\)(其中 \(s < \lfloor t/m \rfloor\))之间的索引分数 \(I_{t,s} \in \mathbb{R}\) 计算如下:
其中 \(W^w \in \mathbb{R}^{d \times n_h^I}\) 为可学习矩阵;\(w_{t,h}^I \in \mathbb{R}\) 为第 \(h\) 个索引器头的权重。对于查询令牌 \(t\),给定其索引分数 \(I_{t,:}\),我们采用一个top-k选择器,有选择性地保留一部分压缩KV条目 \(C_{\text{SprsComp}, t}\) 用于后续核心注意力计算:
共享键值 MQA。选定稀疏 KV 条目后,CSA 以多查询注意力(MQA) 方式执行核心注意力计算,其中 \(C_{\text{SprsComp}, t}\) 中的每个压缩 KV 条目同时作为注意力键和值。具体而言,对于查询令牌 \(t\),我们首先从压缩潜变量向量 \(c_t^Q\) 生成注意力查询 \(\{q_{t,1}; q_{t,2}; \dots; q_{t,n_h}\}\):
其中 \(n_h\) 表示查询头的数量;\(W^{\text{UQ}} \in \mathbb{R}^{d_c \times c n_h}\) 为查询的上投影矩阵。注意,潜查询向量 \(c_t^Q\) 与索引器查询所用向量相同。
随后,我们对 \(\{q_{t,i}\}\) 和 \(C_{\text{SprsComp}, t}\) 执行 MQA:
其中 \(o_{t,i} \in \mathbb{R}^c\) 为第 \(t\) 个令牌上第 \(i\) 个头的核心注意力输出;\(\text{CoreAttn}(\cdot)\) 表示核心注意力操作。
分组输出投影。在 DeepSeek-V4 的配置中,\(c n_h\) 相当庞大。因此,直接将核心注意力操作的输出 \([o_{t,1}; o_{t,2}; \dots; o_{t,n_h}] = o_t \in \mathbb{R}^{c n_h}\) 投影至 \(d\) 维隐藏状态将带来巨大的计算负担。为减轻此开销,我们设计了一种分组输出投影策略。具体而言,我们首先将 \(n_h\) 个输出拆分为 \(g\) 组,然后对每组输出 \(o_{t,i}^{G} \in \mathbb{R}^{c \frac{n_h}{g}}\) 将其投影至 \(d_g\) 维中间输出 \(o_{t,i}^{G'} \in \mathbb{R}^{d_g}\),其中 \(d_g < c \frac{n_h}{g}\)。最后,将中间输出 \([o_{t,1}^{G'}; o_{t,2}^{G'}; \dots; o_{t,g}^{G'}] \in \mathbb{R}^{d_g g}\) 投影至最终注意力输出 \(\hat{o}_t \in \mathbb{R}^d\)。
重度压缩注意力(HCA)
HCA的核心架构如图4所示,其采用更激进的键值(KV)缓存压缩方式,但未使用稀疏注意力机制。

压缩键值条目。总体而言,HCA的压缩策略与 CSA类似,但采用了更大的压缩率m′(远大于m),且不执行重叠压缩。设 $ H \in \mathbb{R}^{n \times d} $ 为输入隐藏状态序列,HCA首先计算原始KV条目 $ C \in \mathbb{R}^{n \times c} $ 及其对应的压缩权重 $ Z \in \mathbb{R}^{n \times c} $:
其中 $ W^{KV}, W^{Z} \in \mathbb{R}^{d \times c} $ 为可训练参数。随后,$ C $ 中每 $ m' $ 个KV条目根据其压缩权重和可学习位置偏置 $ B \in \mathbb{R}^{m' \times c} $ 被压缩为单一条目,生成 $ C^{\text{Comp}} \in \mathbb{R}^{\frac{n}{m'} \times c} $。各压缩条目 $ C_i^{\text{Comp}} \in \mathbb{R}^c $ 的计算方式如下:
通过该压缩操作,HCA将序列长度压缩至原来的 $ \frac{1}{m'} $。
共享键值 MQA 与分组输出投影。HCA 同样采用了与 CSA 相同的共享 KV MQA 和分组输出投影策略。在 KV 压缩之后,对于查询令牌 $ t $,HCA 首先以低秩方式生成注意力查询 $ {q_{t,1}, q_{t,2}, \ldots, q_{t,n_h}} $:
其中 $ h_t \in \mathbb{R}^d $ 为查询令牌 $ t $ 的输入隐藏状态;$ n_h $ 表示查询头的数量;$ W^{DQ} \in \mathbb{R}^{d \times d_c} $ 和 $ W^{UQ} \in \mathbb{R}^{d_c \times c n_h} $ 分别为查询的下投影和上投影矩阵。随后,我们对$ {q_{t,i}} $ 和 $ C_{\mathrm{Comp}} $ 执行 MQA:
其中$ o_{t,i} \in \mathbb{R}^c $ 为第 $ t $ 个 token 上第 $ i $ 个头的核心注意力输出。接着,与 CSA 类似,HCA 将 $ n_h $ 个输出拆分为$ g $ 组。对于每组输出 $ o^G_{t,i} \in \mathbb{R}^{c \cdot (n_h / g)} $,HCA 将其投影至 $ d_g $ 维中间输出 $ {o^G}'_{t,i} \in \mathbb{R}^{d_g} $,其中 $ d_g < c \cdot (n_h / g) $。
最后,HCA 将中间输出\([{o^G}'{t,1}; {o^G}'{t,2}; \ldots; {o^G}'_{t,g}] \in \mathbb{R}^{d_g \cdot g}\)投影至最终注意力输出 $ \hat{o}_t \in \mathbb{R}^d $。
其他细节
除上述CSA 和 HCA的核心架构外,我们的混合注意力机制还融入了若干其他技术。为行文清晰起见,我们在前述介绍中省略了这些附加技术,并将在此小节中简要描述。同时,该小节仅聚焦于这些技术的核心思想,为简洁起见可能省略部分微小细节。我们鼓励读者参考我们开源的实现代码以获取明确无误的细节。
查询与键值条目归一化。 对于CSA 和 HCA,我们均在核心注意力操作之前,对每个查询头以及压缩后的KV条目(仅有一个头)执行额外的RMSNorm操作。该归一化可避免注意力对数分数的爆炸,并有助于提升训练稳定性。
部分旋转位置编码。 对于CSA 和 HCA,我们部分应用旋转位置编码(RoPE)于注意力查询、KV条目以及核心注意力输出。具体而言,对于CSA 和 HCA中使用的每个查询向量和 KV条目向量,我们仅对其最后64个维度应用RoPE。由于KV条目既充当注意力键又充当值,基于KV条目加权和得到的朴素核心注意力输出\(\{{o_t,i}\}\)将携带绝对位置编码。作为对策,我们还在每个ot,i的最后64个维度上应用位置为\(−i\)的RoPE。通过这种方式,核心注意力输出也将携带相对位置编码——每个KV条目对核心注意力输出的贡献也将与查询和 KV条目之间的距离相关联。
滑动窗口注意力的附加分支。 为严格保持CSA 和 HCA中的因果性,每个查询仅关注其之前压缩的KV块。因此,查询无法访问其自身压缩块内其他令牌的信息。同时,在语言建模中,近期的令牌通常与查询令牌具有更强的相关性。鉴于此,我们为CSA 和 HCA引入了以滑动窗口方式工作的补充注意力分支,以更好地建模局部依赖关系。具体而言,对于每个查询令牌,我们额外生成对应近期nwin个令牌的未压缩KV条目。在CSA 和 HCA的核心注意力中,这些滑动窗口内的KV条目将与压缩后的KV条目一同使用。
注意力汇聚。在CSA 与 HCA的核心注意力机制中,我们采用了注意力汇聚技巧。具体而言,我们设置了一系列可学习的汇聚logits \(\{z'_1, z'_2, \ldots, z'_{n_h}\}\)。对于第\(h\)个注意力头,\(\text{Exp}(z'_h)\)将被添加到注意力分数的分母中:
其中\(s_{h,i,j}, z_{h,i,j} \in \mathbb{R}\)分别表示第\(h\)个注意力头在第\(i\)个查询令牌与第\(j\)个前置令牌(或压缩块)之间的注意力分数与注意力logits。该技术使得每个查询头能够将其总注意力分数调整为不等于1,甚至可以接近于0。
效率讨论
由于融合了CSA 与 HCA,并结合低精度计算与存储机制,DeepSeek-V4系列的注意力模块在注意力FLOPs 和 KV缓存大小方面均实现了显著的效率提升,尤其在长上下文场景中表现突出。首先,我们对KV条目采用混合存储格式:旋转位置嵌入(RoPE)维度使用BF16精度,而其余维度则应用FP8精度。相较纯BF16存储,这种混合表示方式将KV缓存大小缩减了近一半。其次,闪电索引器内的注意力计算以FP4精度执行,从而在极长上下文条件下加速注意力操作。第三,相较于DeepSeek-V3.2,DeepSeek-V4系列选择了更小的注意力top-k值,进而提升了模型在中短文本上的效率。最后且最为重要的是,压缩注意力与混合注意力技术显著降低了KV缓存大小和计算FLOPs。以头维度为128的BF16 GQA8)——作为大语言模型注意力的常见配置之一——作为基线,DeepSeek-V4系列在1M上下文设置下的KV缓存大小可大幅缩减至该基线的大约2%。
此外,即便与高效基线模型DeepSeek-V3.2相比,DeepSeek-V4系列在效率上仍展现出显著优势。图1右侧部分提供了两者推理FLOPs 与 KV缓存大小的对比结果。
Muon优化器
我们在DeepSeek-V4系列的大多数模块中采用Muon优化器,因其具有更快的收敛速度和更优的训练稳定性。我们的Muon优化完整算法总结于算法1中。

基本配置。我们对嵌入模块、预测头模块、混合层级压缩(mHC)模块的静态偏置与门控因子、以及所有RMSNorm模块的权重,维持使用AdamW优化器。其余所有模块均采用Muon进行更新。遵循Liu等人的工作,我们同样对Muon参数应用权重衰减,采用Nesterov技巧,并重新缩放更新矩阵的均方根(RMS)以复用AdamW的超参数。与之不同的是,我们采用混合Newton-Schulz迭代方法进行正交化处理。
混合Newton-Schulz迭代。对于给定矩阵 \(\mathbf{M}\),设其奇异值分解(SVD)为 \(\mathbf{M} = \mathbf{U}\mathbf{\Sigma}\mathbf{V}^\mathsf{T}\)。Newton-Schulz迭代的目标是将 \(\mathbf{M}\) 近似正交化为 \(\mathbf{U}\mathbf{V}^\mathsf{T}\)。通常,首先将 \(\mathbf{M}\) 归一化为 \(\mathbf{M}_0 = \mathbf{M} / \|\mathbf{M}\|_F\),以确保其最大奇异值不超过 1。随后,每次Newton-Schulz迭代执行如下操作:
我们的混合Newton-Schulz方法在两个不同阶段共执行 10 次迭代。在前 8 步中,采用系数 \((a, b, c) = (3.4445, -4.7750, 2.0315)\) 以实现快速收敛,使奇异值趋近于 1;在最后 2 步中,切换至系数 \((a, b, c) = (2, -1.5, 0.5)\),从而将奇异值精确稳定在 1。
避免注意力对数爆炸。DeepSeek-V4 系列的注意力架构允许我们直接在注意力查询和 KV 条目上应用 RMSNorm 归一化,这有效防止了注意力对数的爆炸。因此,我们在 Muon 优化器中并未采用 QK-Clip 技术。
通用基础设施
专家并行中的细粒度通信-计算重叠
专家混合(MoE)可通过专家并行(EP)实现加速。然而,专家并行需要复杂的节点间通信,且对互连带宽和延迟有较高要求。为缓解专家并行中的通信瓶颈,并在更低的互连带宽需求下实现更高的端到端性能,我们提出一种细粒度专家并行方案,该方案将通信与计算融合为单个流水线内核,以实现通信与计算的重叠。
通信延迟可被隐藏。我们的EP方案的核心见解是,在MoE层中,通信延迟可有效隐藏在计算之下。如图5所示,在DeepSeek-V4系列模型中,每个MoE层主要可分解为四个阶段:两个与通信相关的阶段,即调度(Dispatch)和合并(Combine),以及两个与计算相关的阶段,即线性层1(Linear-1)和线性层2(Linear-2)。我们的性能分析表明,在单个MoE层内,通信总耗时少于计算总耗时。因此,将通信与计算融合为统一的流水线后,计算仍将成为主要的性能瓶颈,这意味着系统可在不降低端到端性能的前提下容忍更低的互连带宽。

细粒度专家池方案。为进一步降低互连带宽需求并放大重叠带来的效益,我们提出了一种细粒度的专家划分方案。受诸多相关研究的启发,我们将专家拆分并按批次进行调度。每个批次包含一小部分专家。当某一批次内的所有专家完成通信后,计算即可立即开始,无需等待其他专家。在稳定状态下,当前批次的计算、下一批次的令牌传输以及已完成专家的结果发送均同步进行,如图5所示。这在专家之间形成了细粒度的流水线,使计算和通信在整个批次过程中保持连续。基于批次的调度加快了在强化学习(RL)部署等极端场景下的性能表现,这类场景通常会遇到长尾小批量问题。
性能与开源巨型核。我们在 NVIDIA 显卡和华为昇腾 NPU 平台上验证了细粒度 EP 方案。与高性能的非融合基线相比,该方案在通用推理工作负载上实现了 1.50~1.73 倍的加速,在强化学习展开、高速智能体服务等延迟敏感场景下加速比最高可达 1.96 倍。我们已开源了基于 CUDA 的巨型核实现 MegaMoE2,将其作为 DeepGEMM 的一个组成部分。
观察与建议。我们分享内核开发中的观察与经验,并向硬件厂商提出若干建议,以期助力高效硬件设计,实现更优的软硬件协同设计:
- 计算-通信比。完全的计算-通信重叠取决于计算-通信比,而非仅由带宽决定。将峰值计算吞吐量记为C,互连带宽记为B,当\(C / B ≤V_{comp } / V_{comm }\)时,通信可被完全隐藏,其中\(V_{comp }\)表示计算量,\(V_{comm }\)代表通信量。对于DeepSeek-V4-Pro而言,每个token-expert对需要6ℎ次浮点运算(SwiGLU门、向上和向下投影),但仅产生\(3 h\)字节的通信量(FP8分发+BF16合并),这可简化为:
也就是说,每1GB/s的互连带宽足以抵消6.1TFLOP/s算力产生的通信开销。一旦带宽达到这一门槛,它就不再是瓶颈,而额外投入芯片面积去提升带宽则会带来收益递减的效果。我们建议未来的硬件设计以这样的平衡值为目标,而非无条件地提升带宽。
- 功率预算。极致的内核融合驱动会让计算、内存和网络同时处于高负载状态,这使得功率限频成为关键的性能限制因素。我们建议未来的硬件设计为这类全并发工作负载提供充足的功率余量。
- 通信原语。我们采用拉取式方法,每个GPU主动从远程GPU读取数据,避免了细粒度推送所带来的高通知延迟。未来具备更低延迟跨GPU信令的硬件将使推送方式变得可行,并能实现更自然的通信模式。
- 激活函数。我们提出用一种低成本的逐元素激活函数替代 SwiGLU,该函数不涉及指数或除法运算。这直接减轻了矩阵乘法后(GEMM)的处理负担,且在相同参数预算下,移除门控投影可扩大中间维度d,进一步降低带宽需求。
基于 TileLang 的灵活高效算子开发
在实际应用中,我们复杂的模型架构会产生数百个细粒度的 Torch ATen 算子。我们采用 TileLang 开发了一组融合内核来替代其中绝大多数算子,只需付出最小的努力即可实现最优性能。它还让我们能在验证阶段快速构建注意力变体等算子的原型。这些内核在模型架构开发、大规模训练以及推理服务的最终生产部署中发挥着关键作用。作为一种领域特定语言(DSL),TileLang 在开发效率与运行时效率之间实现了平衡,既支持快速开发,又能在同一代码库中实现深度的迭代优化。此外,我们还与 TileLang 社区展开密切合作,以打造更敏捷、高效且稳定的内核开发工作流。
利用主机代码生成减少调用开销。随着加速器性能持续提升,CPU 端的编排开销变得愈发突出。对于小型且高度优化的内核,此类固定的主机开销很容易限制其利用率和吞吐量。这种开销的一个常见来源是,为保证灵活性,主机端逻辑(如运行时契约检查)通常以 Python 编写,从而产生固定的每次调用成本。
我们通过主机代码生成(Host Codegen)来降低这种开销,该机制将大部分主机端逻辑转移到生成的主机代码中。具体而言,我们首先在中间表示(IR,Intermediate Representation)层面协同生成设备内核和轻量级主机启动器,嵌入从语言前端解析而来的必要元数据——例如数据类型、维度/形状约束以及步长/布局假设。随后,该启动器被降低为基于TVM-FFI框架构建的主机源代码,其紧凑的调用约定和零拷贝张量互操作功能共同将主机端开销降至最低。在运行时,生成的主机代码会执行验证和参数编组,将所有单次调用检查移出Python执行路径。我们的测试结果显示,CPU端的验证开销从每次调用的数十或数百微秒降低到了一微秒以下。
基于SMT求解器的形式化整数分析。TileLang内核包含复杂的张量索引算术运算,这需要强大的形式化整数分析能力。在布局推理、内存冲突检测和边界分析等编译阶段,编译器必须验证整数表达式是否满足特定属性,以实现相应的优化。因此,更强的形式化分析能力能够解锁更多高级且复杂的优化机会。
为此,我们将 Z3 SMT 求解器集成到 TileLang 的代数系统中,为张量程序中的大多数整数表达式提供形式化分析能力。我们通过将 TileLang 的整数表达式转换为 Z3 的无量词非线性整数算术(QF_NIA),在计算开销和形式表达能力之间取得平衡。基于整数线性规划(ILP)求解器,QF_NIA 能够无缝解决内核中常见的标准线性整数表达式。此外,其固有的非线性推理能力有效应对了可变张量形状向量化等高级挑战。在合理的资源限制下,Z3 提升了整体优化性能,同时将编译时间限制在仅几秒以内。这一改进对向量化、屏障插入和代码简化等多轮优化过程均产生了显著影响。
数值精度与按位可复现性。在生产环境中,数值正确性与可复现性和原始吞吐量同样关键。因此我们默认优先考虑精度:在编译器层面禁用了快速数学优化,且影响精度的近似计算仅作为显式的、需手动启用的前端运算符提供(例如 T.__exp、T.__log 和 T.__sin)。相反,当需要严格遵循 IEEE-754 语义时,TileLang 提供支持 IEEE 标准且带有显式舍入模式的内部函数(例如 T.ieee_fsqrt、T.ieee_fdiv 和 T.ieee_add),使开发人员能够精确指定数值行为。
我们还以按位可复现性为目标,用于对照手写 CUDA 基准验证内核。我们将 TileLang 的代数简化和降阶规则与主流 CUDA 工具链(如 NVCC)保持一致,以避免引入非预期按位差异的转换操作。布局注释(例如 T.annotate_layout)还允许用户锁定依赖布局的降阶决策,使求值和累加顺序与参考 CUDA 实现保持一致,从而在需要时实现按位相同的输出结果。
我们的评估表明,这些以准确性和可重复性为导向的设计选择并未牺牲性能:在保守默认设置下,TileLang 内核仍保持着竞争力,同时还能开放调节参数,有选择地放宽数值约束以提升运行速度。
高性能批处理不变且确定性的内核库
为实现高效的训练与推理,我们开发了一套全面的高性能计算内核。除了具备基础功能并最大化硬件利用率外,另一关键设计目标是确保预训练、后训练与推理流程之间的训练可复现性以及按位一致性。因此,我们实现了端到端、按位批处理不变且确定性的内核,同时将性能开销降至最低。这些内核有助于调试、稳定性分析以及保持后训练行为的一致性。
批次不变性。批次不变性确保任意给定标记的输出在比特层面保持一致,无论其在批次中的位置如何。为实现批次不变性,主要挑战如下:
-
注意力机制。为实现批次不变性,我们无法采用拆分键值(split-KV)方法该方法会将单个序列的注意力计算分配至多个流多处理器(SM)以平衡其负载。但放弃这一技术会引发严重的波量化问题,进而对GPU利用率产生不利影响。为解决此问题,我们提出了一种面向批次不变性解码的双核策略。第一个核在单个流多处理器内完成整个序列的注意力输出计算,确保满负载波的高吞吐量。第二个核则针对单个序列使用多个流多处理器,以最小化最后一个未完全填充波的延迟,从而缓解波量化问题。为保证这两个核的计算结果逐位一致,我们精心设计了第二个核的计算路径,使其累加顺序与第一个核完全相同。此外,第二个核利用线程块集群内的分布式共享内存,实现了流多处理器间的高速数据交换。这种双核方法有效将批次不变性解码的开销控制在可忽略的范围内。
-
矩阵乘法。传统的 cuBLAS 库无法实现批量不变性。因此,我们将其全程替换为 DeepGEMM。此外,对于极小的批量规模,常规实现通常采用 split-k技术来提升性能。遗憾的是,split-k 技术无法保证批量不变性,而这是 DeepSeek-V4 中的一项关键特性。
因此,我们在大多数场景下放弃了 split-k 策略,但这可能会导致性能下降。为解决这一问题,我们引入了一组优化措施,使我们的矩阵乘法实现能够在大多数主要场景下达到甚至超越标准 split-k 的性能。
确定性。确定性训练对于调试硬件或软件问题非常有益。此外,当训练出现损失峰值等异常情况时,确定性能让研究人员更轻松地定位数值层面的原因,并进一步优化模型设计。训练中的非确定性通常源于非确定性的累加顺序,这往往是由于使用了原子加法指令导致的。该问题主要出现在反向传播过程中,具体体现在以下部分:
-
注意力反向传播。在稀疏注意力反向传播的常规实现中,我们使用atomicAdd来累加键值(KV)令牌的梯度。由于浮点加法不具有结合性,这会引入不确定性。为解决此问题,我们为每个流多处理器(SM)分配独立的累加缓冲区,随后对所有缓冲区执行全局确定性求和。
-
混合专家模型反向传播。当不同排名的多个专家模型(SM)同时向接收排名的同一缓冲区写入数据时,协商写入位置也会引入不确定性。为解决此问题,我们在单个排名内设计了一种令牌顺序预处理机制,并结合多排名间的缓冲区隔离策略。该策略确保了专家并行性的发送结果以及混合专家模型(MoE)反向传播过程中累加顺序的确定性。
-
mHC 中的矩阵乘法。mHC 涉及一次矩阵乘法,其输出维度仅为 24。对于非常小的批量大小,我们不得不使用 split-k 算法,该算法的朴素实现会导致不确定性。为解决此问题,我们分别输出每个拆分部分,并在后续内核中执行确定性归约,从而兼顾性能与确定性。
感知FP4量化的训练
为在部署阶段实现推理加速和内存节省,我们在训练后阶段引入了量化感知训练(QuantizationAware Training,QAT),使模型能够适应量化带来的精度损失。我们将 FP4(MXFP4)量化应用于两个组件:(1)MoE 专家权重,这是 GPU 内存占用的主要来源;(2)CSA 索引器中的查询-键(Query-Key,QK)路径,该路径中 QK 激活的缓存、加载和乘法运算均完全在 FP4 精度下进行,从而加速了长上下文场景下的注意力分数计算。此外,我们还在该 QAT 过程中将索引分数 \(I_{-;}\) 从 FP32 量化为 BF16。这一优化使 top-k 选择器的速度提升了 2 倍,同时保留了 99.7% 的 KV 条目召回率。
对于MoE专家权重,遵循量化感知训练(QAT)的常规做法,优化器维护的FP32主权重首先被量化为FP4,随后反量化回FP8用于计算。值得注意的是,我们的FP4到FP8反量化过程是无损的。这是因为FP8(E4M3)相比FP4(E2M1)多了2个指数位,具备更大的动态范围。因此,只要每个FP8量化块(128×128个瓦片)内的FP4子块(1×32个瓦片)的最大和最小缩放因子之比不超过特定阈值,FP8扩展后的动态范围就能完全吸收细粒度的缩放信息。我们通过实验验证了当前权重满足这一条件。这使得整个量化感知训练(QAT)流程能够完全复用现有的FP8训练框架,且不做任何修改。在反向传播过程中,针对前向传播中相同的 FP8 权重计算梯度,并直接将其传播回 FP32 主权重,这等同于通过量化操作应用直通估计器(STE)。这也避免了对转置权重进行重新量化的需求。
在强化学习训练的推理和部署阶段,这些阶段不涉及反向传播,我们直接使用真实的 FP4 量化权重而非模拟量化。这确保了模型在采样过程中的行为与线上部署完全一致,同时减少了内核内存加载以实现实际加速,并显著降低内存消耗。我们在 CSA 的索引器中对 QK 路径也进行了类似处理。
训练框架
我们的训练框架基于为DeepSeek-V3开发的可扩展高效基础设施构建。在训练DeepSeek-V4的过程中,我们在继承这一坚实基础的同时,引入了多项关键创新以适配其全新的架构组件——具体为Muon优化器、mHC以及混合注意力机制,同时保证了训练的高效率与稳定性。
Muon 的高效实现
Muon 优化器需要完整的梯度矩阵来计算参数更新,这与零冗余优化器(ZeRO)结合时会带来挑战。传统 ZeRO 是为 AdamW 这类逐元素优化器设计的,在这种优化器中,单个参数矩阵可在多个进程层级间拆分并完成更新。为解决这一冲突,我们为 Muon 设计了 ZeRO 分桶分配的混合策略。
对于稠密参数,我们限制 ZeRO 并行性的最大规模,并采用背包算法将参数矩阵分配到这些进程组,确保每个进程组承担大致均衡的负载。每个进程组上的桶会进行填充,以匹配所有进程组中最大桶的规模,从而实现高效的归约-散射操作。在我们的配置中,每个进程组管理不超过五个参数矩阵,这种填充带来的内存开销通常低于10%。当数据并行的整体规模超过 ZeRO 的限制时,我们会在额外的数据并行组中冗余计算 Muon 更新,以增加计算量为代价,减少桶的总内存占用。
对于混合专家(MoE)参数,我们对每个专家进行独立优化。我们首先将所有层中所有专家的 SwiGLU 激活函数里的所有下投影矩阵展平,随后展平上投影矩阵和门控矩阵。接着,我们对展平后的向量进行填充,以确保能将该向量均匀分配到所有进程组(rank)中,且不会拆分任何逻辑上独立的矩阵。鉴于专家数量众多,我们未对混合专家参数设置 ZeRO 并行度的限制,填充带来的开销也可忽略不计。
此外,在每个进程层级上,相同形状的连续参数将被自动合并,从而支持Newton-Schulz迭代的批量执行,以提升硬件利用率。此外,我们发现,在使用 BF16 矩阵乘法进行计算时,Muon 中的Newton-Schulz迭代仍能保持稳定。基于这一特性,我们进一步采用随机舍入方式,将跨数据并行进程层级同步的 MoE 梯度量化为 BF16 精度,使通信量减少一半。为避免低精度加法器引入的累积误差,我们将传统的基于树状或环形的归约散射集合操作替换为两阶段方法。首先,全对全操作在各进程层级间交换局部梯度,随后每个进程层级以 FP32 精度执行局部求和。该设计可保持数值稳定性。
mHC 的高性价比与高内存效率实现
与传统的残差连接相比,mHC 的引入会同时增加激活内存消耗和流水线级之间的通信量。为了降低这些成本,我们实施了多种优化策略。
首先,我们精心设计并实现了用于训练和推理的mHC融合内核。其次,我们提出了一种重计算策略,可选择性地对中间张量进行检查点操作。具体而言,我们对层间的大多数隐藏状态以及所有归一化层输入进行重计算,同时避免对计算密集型操作进行重计算。这实现了内存节省与计算开销之间的平衡。第三,我们对DualPipe 1F1B重叠方案进行了调整,以适配mHC中增加的流水线通信,并实现部分操作的并发执行。
总体而言,这些优化将 mHC 的挂钟时间开销仅限制为重叠 1F1B 流水线阶段的 6.7%。工程优化的更多细节可参见专门的 mHC 论文。
长上下文注意力的上下文并行机制
传统上下文并行(CP)对序列维度进行划分,每个秩保持连续的 个词元。这给我们的压缩注意力机制(即 CSA 和 HCA)带来了两个挑战。一方面,训练样本由多个序列打包而成,每个序列都以 \(m( or m')\) 的系数独立进行压缩,任何少于 个的末尾词元都会被丢弃。因此,压缩后的键值(KV)长度为通常小于 \(\frac{s}{m}\) 且随排名变化。另一方面,压缩需要 连续的KV条目,这些条目可能跨越两个相邻CP秩的边界。
为解决这些挑战,我们设计了一种两阶段通信方法。在第一阶段,每个秩 i 将其最后 m 个未压缩的 KV 条目发送到秩 \(i+1\)。然后,秩 \(i+1\) 将部分接收到的条目与其本地的 s 个未压缩 KV 条目一起进行压缩,生成固定长度为 \(\frac{s}{m}+1\) 的压缩条目,其中包含一些填充条目。在第二阶段,跨所有CP进程的全聚集操作收集本地压缩的键值对条目。随后,融合的选择与填充算子将其重组为完整的压缩数据集KV 条目总长度为 cp_size · \(\frac{s}{m}\)。任何填充条目均置于末尾。对于在 CSA 中的 HCA 和索引器中,每个查询令牌的压缩键值对条目的可见范围可通过规则预先计算。对于 CSA 中的稀疏注意力,Top-k 选择器会为每个查询明确指定可见的压缩键值对条目的索引。
用于灵活激活检查点的扩展自动微分
传统的激活检查点实现以整个模块为粒度,在反向传播过程中决定保留还是重新计算其输出激活值。这种粗糙的粒度往往会在重新计算成本和激活内存占用之间做出次优的权衡。另一种方法是手动实现整个层的前向和反向逻辑,显式管理张量检查点状态。这种方法虽然能实现细粒度控制,却会丧失自动微分框架的便捷性,大幅增加开发复杂度。
为了在不牺牲编程效率的前提下实现细粒度控制,我们实现了一种支持自动微分的张量级激活检查点机制。借助该机制,开发者仅需实现前向传播并选择性地标注用于自动检查点和重新计算的单个张量。我们的框架利用 TorchFX 对完整计算图进行追踪。对于每个带注释的张量,该框架会执行反向遍历以确定其重新计算所需的最小子图。我们将这些最小子图定义为重新计算图,并将其插入到对应梯度计算之前的反向逻辑中。
与手动实现相比,本设计在训练过程中不会产生额外开销。该框架中的重计算通过直接释放标注张量的GPU内存,并复用重计算张量的存储指针来实现,无需进行任何GPU内存拷贝。此外,由于图追踪会具体执行模型,我们能够追踪每个张量的底层存储指针,这使得共享存储的张量(例如reshape操作的输入和输出)可以自动对重计算进行去重。这让开发人员在标注重计算时,无需考虑底层的内存细节。
推理框架
我们的推理框架在很大程度上继承自 DeepSeek-V3 的框架,只是在 KV 缓存管理方面存在一些差异。
键值缓存结构与管理
为了高效管理由 DeepSeek-V4 中混合注意力机制产生的异构键值(KV)缓存,我们设计了一种定制化的键值缓存布局。该布局如图 6 所示,我们将在下文对其进行详细阐述。

DeepSeek-V4 中的异构键值对。DeepSeekV4 系列的混合注意力机制引入了多种类型的键值对,这些键值对具有不同的键值(KV)缓存大小和更新规则。用于稀疏选择的快速索引器向键值缓存中引入了额外维度,这些维度的嵌入大小与主注意力中的嵌入大小不同。因果自注意力(CSA)和分层因果注意力(HCA)中采用的压缩技术将序列长度按倍数进行了缩减分别对应 \(\frac{1}{m}\) 和 \(\frac{1}{m'}\),从而减小了整体的 KV 缓存大小。因此,KV 缓存不同层的大小各不相同。此外,滑动窗口注意力(SWA)层也采用不同的键值缓存大小,以及独立的缓存命中和驱逐策略。在压缩分支中,每 个标记会生成一个键值条目。当剩余标记数量不足以进行压缩时,所有待处理标记及其相关的隐藏状态都必须保留在缓冲区中,直到可以执行压缩操作为止。这些缓冲标记代表由位置上下文决定的序列状态,同样在键值缓存框架内进行管理。
混合注意力KV缓存管理的挑战。混合注意力机制违背了PagedAttention 及其变体背后的基本假设。尽管近期的混合KV缓存管理算法(例如Jenga、Hymba)针对通用混合注意力模型或特定结构,但两大主要障碍阻碍了在PagedAttention框架下整合所有层的KV缓存:
- 多样化的缓存策略,例如滑动窗口注意力中所采用的策略。
- 高性能注意力核带来的约束,包括对齐要求。
为了高效管理 DeepSeek-V4 的键值(KV)缓存,我们设计了相应的策略来克服这两个挑战。
用于SWA 和未压缩尾部标记的状态缓存。为解决第一个障碍,我们采用了一种替代的缓存管理机制。由于SWA旨在在有限的KV缓存大小下提升性能,因此将其与压缩分支的未压缩尾部标记一同视为状态空间模型是合理的。相应的KV缓存因此可被视为仅依赖于当前位置的序列特定状态。据此,我们预先分配一个固定且大小有限的状态缓存池,并将其动态分配给每个序列。
稀疏注意力内核协同设计。关于第二个障碍,传统的高性能注意力内核通常假设每个块有固定数量的标记B来优化性能,这对应于CSA中\(B \cdot m\)个原始标记,以及 HCA中\(B \cdot m'\)个原始标记。通过采用高性能的稀疏注意力内核,不同层可以在每个块容纳可变数量的标记,且不会出现性能下降。要实现这一点,需要对键值(KV)缓存布局和稀疏注意力内核进行协同设计。例如,对块进行填充以与缓存行对齐能够提升性能。因此,对于压缩比为m的CSA以及压缩比为\(m'\)的HCA而言,每个块的原始标记数量可以是\(lcm(m, m')\)的任意倍数, 它正是这两个压缩比的最小公倍数。
磁盘KV缓存存储
在部署 DeepSeek-V4 时,我们采用了基于磁盘的 KV 缓存存储机制,以消除共享前缀请求的重复预填充操作。针对 CSA/HCA 中的压缩 KV 条目以及滑动窗口注意力(SWA)中的未压缩 KV 条目,我们设计了独立的存储管理方案。
对于 CSA 和 HCA,我们只需将所有压缩的键值(KV)条目存储到磁盘。当请求命中某个已存储的前缀时,我们会读取并复用该前缀对应的压缩键值条目,直至最后一个完整的压缩块。特别地,对于尾部不完整块中的前缀标记,我们仍需重新计算以还原未压缩的键值条目,因为 CSA 和 HCA 中并未存储未压缩的键值条目。
对于SWA键值(KV)条目,由于它们未被压缩且存在于每一层中,其体积大约是压缩后的CSA 和 HCA键值(KV)条目的8倍。为了高效处理这些大型SWA键值(KV)条目,我们提出并实现了三种不同的策略来管理磁盘上的SWA键值(KV)条目,每种策略在存储开销和计算冗余之间提供了不同的权衡:
-
完整SWA缓存。该策略存储所有token的完整SWA键值对,确保计算零冗余。在此策略下,只需读取该前缀内最后\(n_{win }\)个token的磁盘缓存,即可重建命中前缀的SWA键值对。尽管实现了计算零冗余,但该策略对基于固态硬盘的现代存储系统效率较低——每个命中请求仅会访问存储的SWA键值缓存中的一小部分,从而导致写入密集型的访问模式不均衡。
-
周期性检查点机制。该策略会在每 p 个令牌内对最近的 \(n_{win }\) 个令牌的 SWA 键值(KV)条目进行检查点存储,其中 p 是一个可调参数。对于命中的前缀,我们加载最近的检查点状态,然后重新计算剩余的尾部令牌。通过调整 p,该策略可按需在存储与计算之间进行权衡。
-
零 SWA 缓存机制。该策略不存储任何 SWA 键值(KV)条目。对于命中的前缀,需要进行更多的重新计算来恢复 SWA 键值条目。具体而言,在每个注意力层中,每个令牌的 SWA 键值条目仅取决于上一层中最近的 \(n_{win }\) 个令牌的 SWA 键值条目。因此,对于 L 层模型,利用缓存的 CSA 和 HCA 键值条目,重新计算最后 \(n_{win } \cdot L\) 个令牌,就足以恢复最后的 \(n_{win }\) 个 SWA 键值条目。
根据具体的部署场景,我们选择最合适的策略,以在存储和计算之间实现理想的平衡。
预训练
数据构建
在DeepSeek-V3的预训练数据基础上,我们致力于构建更多样化、更高质量且有效上下文更长的训练语料库。我们持续优化数据构建流程。对于网络来源数据,我们实施过滤策略以剔除批量自动生成和模板化内容,从而降低模型崩溃的风险。数学和编程语料库仍是我们训练数据的核心组成部分,并且我们在中期训练阶段引入智能体数据,进一步提升了DeepSeek-V4系列模型的编码能力。对于多语言数据,我们为DeepSeek-V4构建了更大规模的语料库,增强了其对不同文化长尾知识的捕捉能力。针对DeepSeek-V4,我们特别重视长文档数据的整理,优先选取学术论文、技术报告以及其他体现独特学术价值的材料。综合以上所有内容,我们的预训练语料库包含超过32万亿个标记,涵盖了数学内容、代码、网页、长文档等高质量类别。
对于预训练数据,我们基本沿用了 DeepSeek 的相同预处理策略V3. 在分词方面,我们在DeepSeek-V3分词器的基础上引入了少量用于上下文构建的特殊标记,仍将词汇表大小保持为128K。我们还继承了DeepSeek-V3中的标记拆分和中间填充(FIM)策略。受丁等人研究的启发,我们将不同来源的文档打包为合适的序列,以最大程度减少样本截断。与 DeepSeek-V3不同,我们在预训练阶段采用了样本级别的注意力掩码机制。
预训练设置
模型设置
DeepSeek-V4-Flash。我们将Transformer层的数量设置为43,隐藏维度d设置为4096。前两层采用纯滑动窗口注意力,后续层则以交错方式使用CSA 和 HCA。对于CSA,我们将压缩率m设为4,索引器查询头数设为64,索引器头维度设为128,为稀疏注意力选择的KV条目数(即注意力top-k)设为512。对于HCA,我们将压缩率设为128。对于CSA 和 HCA两者,我们均将查询头数设为64,头维度设为512,查询压缩维度设为1024。输出投影组数量g设为8,每个注意力中间输出的维度设为1024。滑动窗口注意力的额外分支中,窗口大小设为128。我们在所有Transformer块中都采用了MoE层,但前3个MoE层使用哈希路由策略。每个MoE层包含1个共享专家和 256个路由专家,每个专家的中间隐藏维度为2048。在路由专家中,每个token会激活6个专家。多token预测深度设为1。至于mHC,我们将扩展因子设为4,Sinkhorn-Knopp迭代次数设为20。在此配置下,DeepSeek-V4-Flash的总参数为2840亿,每个token会激活130亿参数。
DeepSeek-V4-Pro。我们将Transformer层的数量设置为61,隐藏维度d设置为7168。在前两层中,我们使用HCA。在后续层中,以交错的方式使用CSA 和 HCA。对于CSA,我们将压缩率m设置为4,索引器查询头的数量设置为64,索引器头维度设置为128,为稀疏注意力选择的KV条目数量(即注意力top-k)设置为1024。对于HCA,我们将压缩率设置为128。对于CSA 和 HCA,我们均将查询头的数量设置为128,头维度设置为512,查询压缩维度设置为1536。输出投影组的数量g设置为16,每个中间注意力输出的维度设置为1024。对于滑动窗口注意力的额外分支,窗口大小设置为128。我们在所有Transformer块中都采用了MoE层,但前3个MoE层使用哈希路由策略。每个MoE层由1个共享专家和 384个路由专家组成,其中每个专家的中间隐藏维度为3072。在路由专家中,每个标记会激活6个专家。多标记预测深度设置为1。至于mHC,扩展因子设置为4,Sinkhorn-Knopp迭代次数设置为20。在该配置下,DeepSeek-V4-Flash的总参数为1.6万亿,其中每个标记会激活490亿参数。
训练设置
DeepSeek-V4-Flash。我们对大部分参数使用 Muon 优化器,但对嵌入模块、预测头模块以及所有RMSNorm模块的权重。对于AdamW优化器,我们将其超参数设置为\(\beta_{1}=0.9\)、\(\beta_{2}=0.95\)、\(\varepsilon=10^{-20}\)和\(weight_decay =0.1\)。对于Muon优化器,我们将动量设为0.95、权重衰减设为0.1,并将每个更新矩阵的均方根重缩放至0.18,以复用AdamW的学习率。我们在32万亿个token上训练DeepSeek-V4-Flash,与 DeepSeek-V3类似,我们也采用批量大小调度策略,将token级批量大小从小规模逐步增大至7550万,随后在训练的大部分阶段保持该数值不变。学习率在前2000步进行线性预热,在训练的大部分阶段维持在\(2.7 ×10^{-4}\)。在训练临近结束时,我们最终按照余弦调度将学习率衰减至\(2.7 ×10^{-5}\)。训练以4096的序列长度启动,并逐步将训练序列长度扩展至16384、65536 和 100万。在稀疏注意力的设置方面,我们首先在最初1万亿个token上使用密集注意力对模型进行预热,在序列长度达到65536时引入稀疏注意力,并在训练剩余阶段持续使用稀疏注意力。引入注意力稀疏性时,我们先设置短阶段对CSA中的闪电索引器进行预热,随后在训练的大部分阶段采用稀疏注意力对模型进行训练。对于无辅助损失的负载平衡,我们将偏置更新速度设为0.001。对于平衡损失,我们将其损失权重设为0.0001,以避免单个序列内出现极端不平衡。MTP损失权重在训练的大部分阶段设为0.3,在学习率衰减开始时调整为0.1。
DeepSeek-V4-Pro。除超参数的具体数值外,DeepSeek-V4-Pro的训练设置与DeepSeek-V4-Flash基本一致。我们对大多数参数采用Muon优化器,但对嵌入模块、预测头模块及所有RMSNorm模块的权重使用AdamW优化器。AdamW和Muon的超参数与DeepSeek-V4-Flash相同。我们在33T个token上训练DeepSeek-V4-Pro,并同样采用批次大小调度策略,最大批次大小为94.4M个token。学习率调度策略与DeepSeek-V4-Flash大致相同,但峰值学习率设为\(2.0 ×10^{-4}\),终止学习率设为\(2.0 ×10^{-5}\)。训练同样从4K的序列长度开始,并逐步扩展至16K、64K和1M。与DeepSeek-V4-Flash相比,DeepSeek-V4-Pro以更长时间的密集注意力阶段开始,引入稀疏注意力的策略与DeepSeek-V4-Flash相同,遵循两阶段训练方法。对于无辅助损失的负载均衡,我们将偏置更新速度设为0.001。对于均衡损失,我们将其损失权重设为0.0001,以避免单序列内出现极端不均衡。大多数训练阶段中,MTP损失权重设为0.3,并在学习率衰减开始时调整为0.1。
缓解训练不稳定性
训练万亿参数的MoE模型面临着显著的稳定性挑战,DeepSeekV4系列也不例外。我们在训练过程中遇到了明显的不稳定性问题。简单的回滚操作虽能暂时恢复训练状态,但并非长期有效的解决方案,因为它们无法阻止损失峰值的再次出现。经实验分析,我们发现峰值的出现始终与 MoE层中的异常值相关,而路由机制本身似乎还会加剧这些异常值的产生。因此,我们从两个维度着手解决该问题:打破路由引发的恶性循环,以及直接抑制异常值。幸运的是,我们找到了两种实用的技术手段,能够有效维持训练的稳定性。尽管目前对这些技术背后的深层机制尚未形成完整的理论认知,但我们将其公开分享,以推动社区开展进一步的探索研究。
预期路由。我们发现,将骨干网络与路由网络的同步更新解耦,可显著提升训练稳定性。因此,在第 t 步,我们使用当前网络参数 \(\theta_{t}\) 进行特征计算,而路由索引则使用历史网络参数 \(\theta_{t-\Delta t}\) 计算并应用。在实际应用中,为避免两次加载模型参数的开销,我们在步骤 \(t-\Delta t\) 提前获取步骤 t 的数据。我们“预期性地”计算并缓存后续步骤 t 所需的路由索引,这也是我们将该方法命名为预期路由的原因。我们还在基础设施层面对这一方法进行了大量优化。首先,由于预计算路由索引仅需对数据进行一次前向传播,我们精心编排了流水线执行流程,并让计算与专家并行(EP)通信实现重叠,成功将预期路由的额外挂钟时间开销控制在约20%。其次,我们引入了自动检测机制,仅在出现损失峰值时触发短暂回滚并启用预期路由;在该模式下运行一段时间后,系统会恢复为标准训练。最终,这种动态应用方式让我们能够在几乎不增加整体训练开销的前提下避免损失峰值,同时又不会损害模型性能。
SwiGLU 钳制。在以往的文献中,钳制技术被明确用于约束数值范围,从而提升训练稳定性。在实际训练过程中,我们通过实验发现,应用 SwiGLU 钳制能有效消除异常值,在不影响性能的前提下,对稳定训练过程有显著帮助。在 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 的整个训练过程中,我们将 SwiGLU 的线性分量钳制在 [−10, 10] 范围内,同时将门控分量的上限限制为 10。
评估
评估基准
在对基础模型进行评估时,我们选取了涵盖四大核心维度的基准测试:世界知识、语言理解与推理、编码与数学,以及长上下文处理。
世界知识基准包括 AGIEval、C-Eval、CMMLU、MMLU、MMLU-Redux、MMLU-Pro、MMMLU、MultiLoKo、Simple-QA verified、SuperGPQA、FACTS Parametric以及 TriviaQA。
语言理解与推理基准包括 BigBench Hard (BBH)、DROP、HellaSwag、CLUEWSC以及 WinoGrande。
编码和数学基准包括 BigCodeBench、HumanEval、GSM8K、MATH、MGSM以及 CMath。
长上下文基准包括 LongBench-V2。
评估结果
在表1中,我们对DeepSeek-V3.2、DeepSeekV4-Flash 和 DeepSeek-V4-Pro这几个基础模型进行了详细对比,所有模型均在设置严格一致的统一内部框架下完成评估。
将DeepSeek-V4-Flash-Base 与 DeepSeek-V3.2-Base进行对比,能发现其极具吸引力的效率优势。尽管激活参数和总参数数量均大幅减少,但DeepSeek-V4-Flash-Base在众多基准测试中均优于DeepSeek-V3.2-Base。这一优势在世界知识任务和高难度长上下文场景中表现得尤为明显。这些结果表明,DeepSeek-V4-Flash-Base在架构改进、数据质量优化和训练策略优化方面的提升,使其在参数规模更精简的情况下仍能实现更出色的性能,在大多数评估任务中成功超越参数规模更大的DeepSeek-V3.2-Base。
此外,DeepSeek-V4-Pro-Base 的能力实现了进一步的决定性飞跃,在性能上几乎全面领先于 DeepSeek-V3.2-Base 和 DeepSeek-V4-FlashBase。凭借几乎所有类别性能的提升,DeepSeek-V4-Pro-Base 在最严苛的基准测试中,DeepSeek 基础模型的性能达到新高度。在知识密集型评估中,它实现了显著提升,同时在长上下文理解能力上也取得了实质性进步。在大多数推理和代码基准测试中,DeepSeek-V4-Pro-Base 同样超越了此前的两款模型。这一全面的性能跃升,证实 DeepSeek-V4-Pro-Base 是 DeepSeek 系列中最强大的基础模型,在知识、推理、代码编写和长上下文处理等全维度能力上均优于其前代版本。
后训练
后训练流程
预训练完成后,我们开展了后训练阶段,以生成 DeepSeekV4 系列的最终模型。尽管训练流程在很大程度上与 DeepSeek-V3.2 保持一致,但我们进行了一项关键的方法替换:将混合强化学习(RL)阶段完全替换为基于策略的蒸馏(OPD)。
专业训练
领域专家模型的开发基于DeepSeek-V3.2训练框架进行适配。具体而言,每个模型均通过初始微调阶段与后续强化学习(RL)阶段进行序列优化,其中强化学习阶段由领域专属提示词与奖励信号提供指导。在强化学习阶段,我们采用了组相对策略优化(GRPO)算法,其超参数设置与我们先前的研究保持一致。
推理能力的优化策略。众所周知,模型在推理任务上的表现从根本上取决于所投入的计算资源。因此,我们在不同的强化学习(RL)配置下训练了不同的专用模型,以推动针对不同推理能力进行优化的模型研发。如表2所示,DeepSeek-V4-Pro 和 DeepSeek-V4-Flash均支持三种特定的推理算力模式。针对每种模式,我们在强化学习训练过程中采用了不同的长度惩罚策略和上下文窗口设置,这使得推理输出的标记长度存在差异。为了整合这些不同的推理模式,我们采用了由<think>和</think>标记界定的专用响应格式。此外,针对“最大推理”模式,我们在系统提示词的开头添加了一条特定指令,以引导模型的推理过程,具体如表3所示。


生成式奖励模型。通常来说,易于验证的任务可通过简单的基于规则的验证器或测试用例实现有效优化。相比之下,难以验证的任务传统上依赖人类反馈强化学习(RLHF),这需要大量人工标注来训练标量奖励模型。然而,在DeepSeek-V4系列模型的后训练阶段,我们摒弃了这些传统的基于标量的奖励模型。为解决难以验证的任务,我们精心构建了规则指南引导的强化学习数据,并采用生成式奖励模型(GRM)对策略轨迹进行评估。关键在于,我们直接对生成式奖励模型本身实施强化学习优化。在这一范式中,策略网络天然承担生成式奖励模型的功能,使得模型的评估(判断)能力与常规生成能力得以联合优化。通过统一这两种角色,模型的内部推理能力被自然融入评估过程,从而实现高度可靠的评分。此外,该方法仅需少量多样化的人工标注即可实现优异性能,因为模型利用自身逻辑泛化到复杂任务中。
工具调用模式与特殊标记。与之前的版本保持一致,我们使用专门的 <think></think> 标签来划分推理路径。在 DeepSeek-V4 系列中,我们引入了一种新的工具调用模式,该模式采用特殊的“|DSML|”标记,并基于 XML 格式进行工具调用,如表 4 所示。我们的实验表明,XML 格式能有效规避转义失败问题,减少工具调用错误,为模型与工具的交互提供了更稳健的接口。

交错式思维。DeepSeek-V3.2 引入了一种上下文管理策略,可在工具结果轮次中保留推理痕迹,但在新用户消息到来时会清除这些痕迹。尽管该策略有效,但在复杂的智能体工作流中仍造成了不必要的令牌浪费——每一次新的用户轮次都会清空所有累积的推理内容,迫使模型从头重建其问题求解状态。借助扩展的 100 万令牌上下文在 DeepSeek-V4 系列的框架下,我们进一步优化了这一机制,以最大化智能体环境中交错式思维的有效性:

- 工具调用场景。如图7(a)所示,所有推理内容在整个对话过程中都被完整保留。与 DeepSeek-V3.2在每次新的用户轮次中丢弃思考痕迹不同,DeepSeek-V4系列会保留所有轮次的完整推理历史,包括跨越用户消息边界的部分。这使得模型能够在长周期智能体任务中保持连贯且累积的思维链。
- 通用对话场景。如图7(b)所示,原始策略保持不变:当新的用户消息到来时,前几轮的推理内容会被丢弃,在持续推理痕迹益处有限的场景下,保持上下文的简洁性。
与 DeepSeek-V3.2 一样,通过用户消息模拟工具交互的智能体框架(例如 Terminus)可能无法触发工具调用的上下文路径,因此可能无法从增强的推理持久性中获益。我们继续建议此类架构采用无思维链模型。
快速指令。在聊天机器人场景中,生成回复前必须执行多项辅助任务(例如判断是否触发网络搜索、意图识别等)。传统上,这些任务由独立的小型模型处理,由于无法复用现有键值缓存(KV cache),需要进行冗余的预填充操作。为克服这一局限,我们提出了快速指令机制。我们直接在输入序列后追加一组专用特殊标记,每个标记对应一项具体的辅助任务。通过直接复用已计算完成的键值缓存,该机制彻底避免了冗余预填充,还能并行执行生成搜索查询、判断权威性与领域等特定任务。因此,该方法显著降低了用户感知的首令牌生成时间(TTFT),并消除了维护和迭代额外小型模型的工程开销。支持的快速指令标记汇总于表5。

在线策略蒸馏
通过专门的微调与强化学习训练多个领域专家后,我们采用多教师在线策略蒸馏(OPD)作为核心技术,将专家能力融合至最终模型中。OPD 已成为一种高效的后训练范式,能够将领域专家的知识与能力高效迁移至单个统一模型。其实现方式是让学生模型从教师模型在其自身生成的轨迹上的输出分布中进行学习。从形式上看,给定 N 个专家模型的集合\({\pi_{E_{1}}, \pi_{E_{2}}, ..., \pi_{E_{N}}}\),OPD 目标函数定义为:
在该公式中,\(w_{i}\) 代表为每个专家分配的权重,其通常由专家的相对重要性决定。计算反向 KL 损失 \(D_{KL}(\pi_{\theta} \| \pi_{E_{i}})\) 时,需要从学生模型 \(\pi_{\theta}\) 中采样训练轨迹,以保证同策略学习。其底层逻辑确保了统一策略 \(\pi_{\theta}\) 能从与当前任务场景相关的特定专家处有选择地学习(例如,数学推理任务匹配数学专家,编程任务匹配编码专家)。通过这一机制,来自物理上独立的专家权重的知识会通过对数几率级对齐整合到统一的参数空间中,有效避免了传统权重合并或混合强化学习技术中常见的性能下降问题。在此阶段,会使用十余个覆盖不同领域的教师模型来蒸馏单个学生模型。
在处理上述 OPD 目标时,以往的研究通常将全词汇 KL 损失简化为每个标记位置的标记级 KL 估计,并通过替换来复用 RL 框架ing \(sg[log \frac{\pi_{E_{i}}(y_{t} | x, y_{<t})}{\pi_{\theta}(y_{t} | x, y_{<t})}]\)(sg 表示停止梯度操作)作为每个标记的优势 \(sg[log \frac{\pi_{E_{i}}(y_{t} | x, y_{<t})}{\pi_{\theta}(y_{t} | x, y_{<t})}]\)(sg 表示停止梯度操作)作为每个标记的优势。在策略损失计算中进行估计。尽管这种方法资源效率较高,但会导致梯度估计的方差较大,且往往会造成训练不稳定。因此,我们在最优策略蒸馏(OPD)中采用全词汇对数几率蒸馏。在计算反向KL散度损失时保留完整的对数几率分布,能够获得更稳定的梯度估计,并确保对教师模型知识的忠实蒸馏。在下一小节中,我们将介绍使全词汇最优策略蒸馏能够大规模落地的工程实现方案。
强化学习与在线策略蒸馏基础设施
我们的训练后基础设施基于为 DeepSeekV3.2 开发的可扩展框架构建。具体而言,我们整合了 3.5 节中所述的相同分布式训练栈,以及此前推出的用于高效自回归采样的推理引擎。在此基础上,我们在本研究中引入了以下主要改进。这些设计支持高效执行涉及十余种不同教师模型的超长上下文强化学习(RL)和最优策略蒸馏(OPD)合并任务,从而大幅加快模型发布的迭代周期。
FP4 量化集成
我们采用 FP4(MXFP4)量化技术来加速推理展开以及所有仅推理的前向传播过程,包括教师模型和参考模型的相关计算,从而减少内存访问量与采样延迟。正如3.4节所述,我们在推理展开和推理阶段直接使用原生FP4权重。对于训练步骤,FP4量化通过无损的FP4到FP8反量化步骤来模拟,这使得我们可以无缝复用现有的FP8混合精度框架(搭配FP32主权重),且无需对反向传播流程进行任何修改。
全词汇表OPD的高效教师调度
我们的框架支持全词汇量的在线策略蒸馏(OPD),教师数量实际上没有上限,每位教师的参数规模可能高达数万亿。为实现这一目标,我们将所有教师权重卸载至集中式分布式存储中,并在教师前向传播过程中按需加载,同时采用类似 ZeRO 的参数分片技术,以缓解输入/输出(I/O)和动态随机存取存储器(DRAM)的压力。此外,即便将结果暂存至磁盘,为所有教师的词汇大小为 \(|V|>100 k\) 的词汇表直接生成对数几率(logits)也不切实际。我们通过在前向传播过程中仅将教师的最后一层隐藏状态缓存到集中式缓冲区中来解决这一问题。在训练阶段,我们会检索这些缓存的状态,并将其传入对应的预测头模块,以实时重构完整的对数几率。该设计带来的重新计算开销微乎其微,同时彻底规避了显式生成对数几率所带来的内存负担。为减少教师预测头对图形处理器(GPU)内存的占用,我们在数据分发阶段按教师索引对训练样本进行排序。这种安排确保了每个不同的教师头在每个小批量数据中仅被加载一次,且在任意时刻设备内存中最多只驻留一个教师头。所有参数和隐藏状态的加载/卸载操作均在后台异步进行,不会阻塞关键路径上的计算。最后,我们借助专用的 TileLang 内核计算教师与学生对数几率之间的精确 KL 散度,这一方法既加快了计算速度,又减少了动态内存分配。
可抢占且容错的推理服务
为了在为高优先级任务快速配置硬件的同时最大化GPU资源利用率,我们的GPU集群采用了全集群抢占式任务调度器,任何正在运行的任务都可能随时被抢占。此外,大规模GPU集群中硬件故障频发。为此,我们为强化学习/在线规划部署实现了一个可抢占且容错的大语言模型生成服务。
具体来说,我们为每个生成请求实现了一个令牌粒度的预写日志(WAL)。每当为某个请求生成新令牌时,我们立即将其追加到该请求的预写日志中。在抢占过程中,我们暂停推理引擎并保存 KV 缓存未完成的请求。恢复时,我们使用持久化的预写日志(WAL)和保存的键值(KV)缓存继续解码。即使发生严重的硬件错误,也可以利用预写日志(WAL)中持久化的标记重新运行预填充阶段,以重建键值(KV)缓存。
重要的是,从零重新生成未完成的请求在数学上是不正确的,因为这会引入长度偏差。由于较短的回复更有可能被中断打断,从零重新生成会使模型在发生中断时更容易生成较短的序列。如果推理栈是批处理不变且确定性的,那么通过为采样器中使用的伪随机数生成器设置一致的种子来重新生成,也可以解决这一正确性问题。然而,这种方法仍会产生重新运行解码阶段的额外成本,其效率远低于我们的令牌粒度写前日志(WAL)方法。
面向百万令牌上下文的强化学习框架扩展
我们针对百万令牌序列的高效强化学习(RL)和离线策略蒸馏(OPD)引入了针对性优化。在部署阶段,我们采用了可抢占且容错的部署服务,详见5.2.3节。对于推理和训练阶段,我们将部署数据格式拆解为轻量级元数据和占用资源较大的单令牌字段。在数据调度过程中,可加载整个部署数据的元数据以执行全局洗牌和打包布局计算。占用资源较大的单令牌字段通过共享内存数据加载器加载,以消除节点内数据冗余,并在小批量数据消费后立即释放,大幅降低CPU 和 GPU的内存压力。设备上的小批量数量根据工作负载动态确定,从而在计算吞吐量和 I/O重叠之间实现高效权衡。
智能体人工智能的沙箱基础设施
为满足智能体AI在微调后及评估阶段的多样化执行需求,我们搭建了生产级沙箱平台DeepSeek弹性计算(DSec)。DSec包含三个Rust组件——API网关(Apiserver)、主机代理(Edge)和集群监控器(Watcher)——这些组件通过自定义RPC协议互联,并基于3FS分布式文件系统实现横向扩展。在实际生产环境中,单个DSec集群可管理数十万并发沙箱实例。
DSec 的设计源于四点观察:(1)智能体工作负载具有高度异质性,涵盖轻量级函数调用到具备多样操作系统和安全要求的完整软件工程流程;(2)环境镜像数量多、体积大,却需快速加载并支持迭代式定制;(3)高密度部署要求高效的 CPU 和内存利用率;(4)沙箱生命周期必须与 GPU 训练调度相协调,包括抢占和基于检查点的恢复。基于这些观察,我们将在下文逐一详细阐述 DSec 的四大核心设计。
统一接口背后的四种执行载体。DSec 提供了一个单一的 Python 软件开发工具包(libdsec),对四种执行载体进行了抽象。函数调用将无状态调用分发至预预热容器池,消除了冷启动开销。该容器完全兼容 Docker,并利用只读文件系统的按需加载功能实现高效的镜像构建。基于 Firecracker构建的微型虚拟机(microVM)为对安全性要求高、高密度的部署提供了虚拟机级别的隔离。基于快速模拟器构建的全虚拟机(fullVM)支持任意客户操作系统。这四种载体均拥有统一的应用程序接口(API)——命令执行、文件传输以及 TTY 访问——在这些模式之间切换仅需修改一个参数。
通过分层存储实现快速镜像加载。DSec 借助分层按需加载技术,实现了快速启动与数量庞大且持续增长的环境镜像库的平衡。对于容器,基础镜像和文件系统提交项以 3FS 支持的只读 EROFS 分层形式存储,并直接挂载到 overlay 的下层目录中。我们在挂载时将文件元数据便捷地保留在本地磁盘上;与此同时,数据块会根据请求从 3FS 中获取。对于微型虚拟机,DSec 采用 overlaybd磁盘格式:只读基础层存储在 3FS 上以实现跨实例共享,而写入操作则指向本地写时复制层。此类快照可链式连接,有助于实现高效的版本管理以及毫秒级的恢复操作。
大规模并发下的密度优化。为了支持每个集群容纳数十万个沙箱,DSec 解决了两大资源瓶颈。首先,它减少了虚拟化环境中重复的页缓存占用,并实施内存回收以实现安全的超量分配。其次,它缓解了容器运行时中的自旋锁竞争,从而降低了每个沙箱的 CPU 开销,显著提升了单主机的沙箱部署密度。
轨迹日志与抢占安全恢复。DSec 为每个沙箱维护全局有序的轨迹日志,持久记录每一次命令调用及其结果。该轨迹具有三大作用:
(1)客户端快速跳转——当训练任务被抢占时,沙箱资源仍会被保留;恢复时,DSec 会为先前完成的命令重放缓存结果,既加快任务恢复速度,又能避免因非幂等操作重复执行引发错误;
(2)细粒度溯源——可追溯每次状态变更的来源及对应结果;
(3)确定性重放——可根据轨迹完整复现任意历史会话。
标准基准测试评估
知识与推理。知识与推理数据集包括 MMLU-Pro、GPQA、Human Last Exam、Simple-QA Verified、Chinese-SimpleQA、LiveCodeBench-v6、CodeForces(内部基准)、HMMT 2026 二月赛、Apex、Apex 候选名单、IMOAnswerBench以及 PutnamBench。
在代码方面,我们在 LiveCodeBench-v6 以及一个内部的 Codeforces 基准测试中对 DeepSeek-V4 系列模型进行了评估。针对 Codeforces,我们收集了 14 场 Codeforces 甲级联赛(Division 1)赛事,共包含 114 道题目(2025 年 5 月 - 2025 年 11 月)。Elo 评分的计算方式如下:对于每场赛事,我们为每道题目生成 32 个候选解法。针对每道题目,我们独立地从这些解法中无放回地抽取 10 个,并将它们按随机顺序排列,形成提交序列。每一次提交都会通过由领域专家构建的测试用例集进行评判。已解决题目的得分遵循 OpenAI的罚分规则:模型将获得与该模型以相同的先前失败尝试次数解决同一道题目的人类参与者的得分中位数。这为每个抽取的提交序列得出总赛事得分,随后该得分会被转换为赛事排名,再通过标准的 Codeforces 评分系统转化为预估评分。赛事层面的期望评分定义为,这是针对每个问题的10份提交内容进行所有可能的随机选择和排序后,该估算评分的期望值。模型的整体评分是这14场竞赛中各竞赛级期望值的平均值。
在推理和知识类任务中,我们将温度参数设为1.0,针对无思考、高思考和最大思考模式,分别将上下文窗口设置为8K、128K 和 384K个token。对于数学类任务(如HMMT、IMOAnswerBench、Apex 和 HLE),我们采用以下模板进行评估:“{question}\n请逐步推理,并将最终答案放在\boxed{}中。”对于DeepSeek-V4-Pro-Max模型处理数学任务的场景,我们使用以下模板来引导更深入的推理:“解决以下问题。该问题可能要求证明某个命题,也可能要求得出一个答案。若需要求解答案,你应推导出该答案,且你的最终解答也需对该答案的有效性作出严谨证明。\n\n{question}”。
针对正式数学任务,我们在 Lean v4.28.0-rc1的智能体环境中进行评估,可访问 Lean 编译器和语义策略搜索引擎,最多进行 500 次工具调用,推理工作量设为最大值。此外,我们还评估了一个计算量更大的流程:首先生成候选自然语言解决方案,并通过自我验证进行筛选,随后将保留的解决方案作为指导提供给正式智能体,以证明对应的 Lean 命题。该设计借助非正式推理优化探索过程,同时通过形式化验证保证结果的严格正确性。只有当严格验证器 Comparator 对两种设置均予以认可时,提交的结果才被判定为正确。
我们为 K2.6 和 GLM-5.1 留了一些空白条目,因为它们的 API 过于繁忙,无法返回我们查询的响应。
100万令牌上下文。由于DeepSeek-V4系列支持100万令牌上下文,我们选取OpenAI MRCR 和 CorpusQA作为基准,在长上下文场景中评估模型性能。我们针对这些任务重新评估了Claude Opus 4.6 和 Gemini 3.1 Pro,目标是统一所有模型的配置。我们未评估GPT-5.4,因为其API未能响应我们的大部分查询。
智能体。智能体相关数据集包括终端基准2.0、经SWE验证、多语言SWE、SWE-Pro、BrowseComp、MCPAtlas公共评估集、GDPval-AA以及工具十项全能。
针对代码智能体任务(SWE-Verified、Terminal-Bench、SWE-Pro、SWE 多语言版),我们通过自研的评估框架对 DeepSeek-V4 系列进行了评估。该框架提供一套极简工具集——一个 bash 工具和一个文件编辑工具。交互步骤的最大数量设为 500,上下文长度的最大值设为 512K 个标记。关于 Terminal-Bench 2.0,我们认可 GLM-5.1 指出的环境相关问题。尽管如此,为保持一致性,我们仍报告了在原始 Terminal-Bench 2.0 数据集上的性能表现。在 Terminal-Bench 2.0 验证子集中,DeepSeek-V4-Pro 取得了约 72.0 的分数。
对于搜索智能体任务(BrowseComp、带工具的HLE),我们还使用了一个内置的包含网络搜索和 Python工具的测试框架,将最大交互步数设置为500,最大上下文长度设置为512K个标记符。对于BrowseComp任务,我们采用与 DeepSeek-V3.2相同的“全部丢弃”上下文管理策略。
评估结果

知识。在通用世界知识的评估中,DeepSeek-V4-Pro 的最大推理能力模式 DeepSeek-V4-Pro-Max 在开源大语言模型中树立了新的最优水平。经 SimpleQA-Verified 测试验证,DeepSeek-V4Pro-Max 以20个绝对百分点的显著优势,大幅超越所有现有开源基准模型。尽管取得了这些进展,它目前仍落后于头部闭源模型 Gemini-3.1-Pro。在教育知识与推理领域,DeepSeek-V4-Pro-Max 在 MMLU-Pro、GPQA 和 HLE 基准测试中略微优于 Kimi 和 GLM,但仍落后于头部闭源模型。总体而言,DeepSeek-V4-Pro-Max 标志着开源模型在提升世界知识能力方面迈出了重要的里程碑。
此外,DeepSeek-V4-Flash 与 DeepSeekV4-Pro 在知识类任务上存在显著的性能差距;这是意料之中的,因为更多的参数数量有助于模型在预训练阶段更好地保留知识。值得注意的是,当分配给模型更高的推理算力时,这两款模型在知识基准测试上的表现均有所提升。
推理能力。DeepSeek-V4-Pro-Max 在各类推理基准测试中表现优于所有此前的开源模型,在多项指标上可与最先进的闭源模型相媲美;而体积更小的 DeepSeekV4-Flash-Max 在代码和数学推理任务上也超越了此前最佳的开源模型 K2.6-Thinking。与此同时,DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 在编程竞赛中表现出色。经评估,它们的性能可与 GPT-5.4 比肩,这是开源模型首次在该任务上达到闭源模型的水平。在 Codeforces 排行榜上,DeepSeek-V4-Pro-Max 目前在人类参赛者中位列第23名。DeepSeek-V4 在智能体模式和计算密集型设置下的正式数学任务中也展现出强劲性能。在智能体模式下,它取得了当前最优结果(见图8),超越了 Seed Prover等此前模型;采用计算密集型流程时,性能进一步提升,超越了 Aristotle等系统,同时达到了该设置下的已知最优结果。

智能体。DeepSeek-V4系列在评估中展现出强劲的智能体性能。在代码智能体任务上,DeepSeek-V4-Pro取得了与 K2.6 和 GLM-5.1相当的成绩,不过所有这些开源模型仍落后于闭源模型。DeepSeek-V4-Flash在编码任务上的表现不及 DeepSeek-V4-Pro,尤其是在Terminal Bench 2.0上。其他智能体评估中也呈现出类似趋势。值得注意的是,DeepSeek-V4-Pro在MCPAtlas 和 Toolathlon这两个涵盖多种工具及 MCP服务的评估测试集上表现出色,这表明我们的模型具备出色的泛化能力,并非仅在内部框架上表现良好。
100万上下文。DeepSeek-V4-Pro在衡量上下文内检索能力的MRCR任务上表现优于Gemini-3.1-Pro,但仍落后于Claude Opus 4.6。如图9所示,在128K上下文窗口内,检索性能保持高度稳定。尽管超过128K阈值后性能下降趋势显现,但与闭源和开源同类模型相比,该模型在100万tokens规模下的检索能力依然表现出色。与 MRCR不同,CorpusQA更贴近实际场景。评估结果还显示,DeepSeek-V4-Pro的表现优于Gemini-3.1-Pro。

推理工作量。如表7所示,在强化学习中采用更长上下文且降低长度惩罚的Max模式,在最具挑战性的任务上表现优于High模式。图10对比了DeepSeek-V4-Pro、DeepSeekV4-Flash 和 DeepSeek-V3.2在典型推理与智能体任务上的性能和成本。通过扩大测试阶段的计算量,DeepSeek-V4系列相比前代模型实现了显著提升。此外,在HLE等推理任务中,DeepSeek-V4-Pro展现出了更高的令牌效率。


真实任务表现
标准化基准测试往往难以捕捉多样化真实世界任务的复杂性,导致测试结果与实际用户体验之间存在差距。为弥补这一不足,我们开发了专属内部指标,优先考量真实世界的使用模式而非传统基准测试。这一方法确保我们的优化能转化为切实的优势。我们的评估框架专门针对DeepSeek API 和聊天机器人的核心使用场景,使模型性能与实际需求相契合。
中文写作
DeepSeek 的核心应用场景之一是中文写作。我们针对功能性写作和创意写作开展了严格的评估。表12展示了DeepSeek-V4-Pro 与 Gemini-3.1-Pro在功能性写作任务上的两两对比结果。这类任务包含日常通用的写作查询,提示词通常简洁直白。我们选择Gemini-3.1-Pro作为基准模型,因为在本次评估中,它是中文写作领域表现最佳的外部模型。结果显示,DeepSeek-V4-Pro的整体胜率为62.7%,而基准模型为34.1%,性能优于该基准;这主要是因为在中文写作场景中,Gemini偶尔会让自身固有的风格偏好凌驾于用户的明确要求之上。

表13展示了创意写作对比,该对比从两个维度进行评估:指令遵循能力和写作质量。与 Gemini-3.1-Pro相比,DeepSeek-V4-Pro在指令遵循方面的胜率达到60.0%,在写作质量方面的胜率达到77.5%,这表明其在指令遵循上有小幅提升,而在写作质量上则有显著进步。尽管DeepSeek-V4-Pro在整体用户案例分析中取得了更优的结果,但将评估范围限定在最具挑战性的提示词(具体而言是涉及高复杂度约束或多轮对话场景的提示词)时可以发现,Claude Opus 4.5仍比DeepSeek-V4-Pro保持着性能优势。如表14所示,Claude Opus 4.5的胜率为52.0%,而DeepSeek-V4-Pro的胜率为45.9%。

搜索
搜索增强型问答是DeepSeek聊天机器人的一项核心功能。在DeepSeek网页端和应用端,“无思考”模式采用检索增强搜索(RAG),而“思考”模式则运用智能体搜索。
检索增强型搜索。我们开展了一项成对评估,在客观和主观问答两类任务中对DeepSeek-V4-Pro 与 DeepSeek-V3.2进行了对比。如表11所示,DeepSeek-V4-Pro以显著优势领先DeepSeek-V3.2,在两类任务中均展现出稳定的优势。其在单值搜索以及规划与策略类任务中表现出的提升最为突出,这表明DeepSeek-V4-Pro擅长从检索到的上下文信息中定位精准的事实性答案,并整合出结构化的方案。不过,DeepSeek-V3.2在对比与推荐类任务中仍保持着相对较强的竞争力,这意味着DeepSeek-V4-Pro在需要对搜索结果进行均衡、多维度推理的场景中仍有改进空间。

智能体搜索。与标准检索增强生成(RAG)不同,智能体搜索让模型能够针对每个查询迭代调用搜索和获取工具,显著提升了整体搜索性能。针对DeepSeek-Chat的思维模式,我们优化了智能体搜索功能,以在预设的“思考预算”内最大化回复准确性。如表9所示,智能体搜索的表现始终优于检索增强生成(RAG),在复杂任务上的优势尤为明显。此外,其成本效率依然很高,智能体搜索的成本仅比标准检索增强生成(RAG)略高(见表10)。


白领任务
为了严格评估该模型在复杂的企业生产力场景中的实用性,我们构建了一套包含30项高级中文专业任务的综合测试集。这些任务流程特意涵盖了高层次的认知需求,包括深度信息分析、全面文档生成和精细文档编辑,覆盖了金融、教育、法律、科技等13个关键行业的多样领域。评估在配备Bash 和网络搜索等基础工具的内部代理测试环境中进行。
鉴于这些任务的开放性,自动化指标通常难以准确捕捉高质量回复的细微差别。因此,我们开展了人工评估,对比 DeepSeek-V4-Pro-Max 与 Opus-4.6-Max 的性能。标注人员从四个维度对模型输出进行盲评:
- 任务完成度:核心问题是否得到成功解决。
- 指令遵循:遵守特定的约束条件和指示要求。
- 内容质量:事实准确性、逻辑连贯性以及专业语气。
- 格式美观度:布局的可读性与视觉呈现效果 如图11所示,DeepSeek-V4-Pro-Max在各类中文白领任务上表现优于Opus-4.6-Max,实现了63%的亮眼无损率,且在分析、生成和编辑类任务中均展现出稳定优势。图12展示的详细维度得分凸显了该模型在任务完成方面的核心优势。

内容质量。具体而言,DeepSeek-V4-Pro-Max 会主动预判用户的潜在意图,频繁提供补充见解和自我验证步骤。它在长文本生成方面也表现出色,能输出有深度、逻辑连贯的叙述内容,而非像 Opus-4.6-Max 那样经常生成过于简单的要点列表。此外,该模型严格遵循正式的专业规范,例如标准化的中文层级编号。不过,在指令遵循方面,它偶尔会忽略特定的格式要求,表现略逊于 Opus。同时,该模型在将大量文本输入浓缩为简洁摘要方面的能力也有所欠缺。最后,在演示幻灯片的整体视觉设计上,其格式美学仍有很大的提升空间。图13、14 和 15展示了多个测试用例;由于部分输出内容篇幅较长,仅展示了部分页面。



代码智能体
为了对我们的代码智能体能力进行基准测试,我们从真实的内部研发工作负载中筛选任务。我们从50多名内部工程师处收集了约200项具有挑战性的任务,涵盖PyTorch、CUDA、Rust 和 C++等多种技术栈的功能开发、漏洞修复、重构和诊断任务。每项任务都附带了原始代码仓库、对应的执行环境以及人工标注的评分标准;经过严格的质量筛选后,我们保留了30项任务作为评估集。如表8所示,DeepSeek-V4-Pro的性能显著优于Claude Sonnet 4.5,且接近Claude Opus 4.5的水平。

在一项针对 DeepSeek 开发人员和研究人员(\((N=85)\))的调查中——这些人员均有在日常工作中使用 DeepSeek-V4-Pro 进行智能体编程的经验——当被问及相较于其他前沿模型,DeepSeek-V4-Pro 是否已准备好成为他们默认且主要的编程模型时,52% 的受访者表示认可,39% 倾向于认可,仅有不到 9% 的人表示不认可。受访者认为 DeepSeek-V4-Pro 在大多数任务中都能取得令人满意的结果,但同时也指出其存在细微错误、对模糊提示词的解读有误以及偶尔过度思考的问题。
结论、局限性与未来方向
本研究推出DeepSeek-V4系列的预览版,旨在打造突破超长上下文处理效率壁垒的下一代大语言模型。DeepSeek-V4系列融合CSA 与 HCA的混合注意力架构,实现了长序列效率的显著飞跃。该架构创新结合全方位基础设施优化,实现对百万token上下文的高效原生支持,为未来的测试时扩展、长周期任务以及在线学习等新兴范式奠定了必要基础。评估结果显示,作为DeepSeek-V4-Pro的最大推理算力模式,DeepSeek-V4-Pro-Max重新定义了开源模型的当前最优水平。它在知识基准测试中大幅超越现有开源模型,推理性能接近前沿闭源模型,同时具备极具竞争力的智能体能力。此外,DeepSeek-V4-Flash-Max在保持高成本效益架构的同时,推理性能可与主流闭源模型相媲美。我们认为,DeepSeek-V4系列为开源模型开启了百万长度上下文的新时代,为实现更优的效率、规模与智能铺平了道路。
为追求极致长上下文效率,DeepSeek-V4系列采用了大胆的架构设计。为将风险降至最低,我们保留了大量经过初步验证的组件和技巧,这些组件和技巧虽有效,却使架构相对复杂。在后续迭代中,我们将开展更全面、更具原则性的研究,将架构提炼为最核心的设计,使其在不牺牲性能的前提下更简洁优雅。同时,尽管预期路由和 SwiGLU截断已被证实能有效缓解训练不稳定性问题,但其底层原理仍未被充分理解。我们将主动研究训练稳定性的基础问题,强化内部指标监控,力求为大规模稳定训练打造更具原则性和可预测性的方案。
此外,除了MoE 和稀疏注意力架构外,我们还将主动从新维度探索模型稀疏性——例如更稀疏的嵌入模块——以在不牺牲模型能力的前提下进一步提升计算和内存效率。我们也将持续研究低延迟架构和系统技术,让长上下文的部署与交互具备更高的响应性。同时,我们认识到长周期、多轮智能体任务的重要性与实用价值,并将继续在该方向上迭代探索。我们还在为模型融入多模态能力。最后,我们致力于优化数据管理与合成策略,以持续提升模型的智能性、鲁棒性,以及在日益广泛的场景和任务中的实际可用性。

浙公网安备 33010602011771号