从DeekSeek V3到V4:技术路线演进、性能提升与创新突破

从DeekSeek V3到V4:技术路线演进、性能提升与创新突破
一、DeepSeek-V3 核心架构与训练策略
DeepSeek-V3 是一个拥有 671B(6710亿) 总参数的混合专家(MoE)模型,其核心设计遵循 高总参、低激活 的经济高效原则,每个 Token 仅激活 37B(370亿) 参数,激活参数与总参数之比约为 1:18。
🏗️ 核心架构设计:DeepSeekMoE 与 MLA
DeepSeek-V3 的架构核心是其 DeepSeekMoE 设计与创新的 多头潜在注意力(Multi-head Latent Attention, MLA) 机制。

  1. DeepSeekMoE 详细配置:
    • 专家构成:每个 MoE 层包含 1个共享专家(Shared Expert) 和 256个路由专家(Routed Experts)。
    • 路由机制:对于每个输入 Token,模型会从 256 个路由专家中选取 Top-8 个进行计算。其亲和性分数计算方式为: s_{i,t} = \text{Sigmoid}(\mathbf{u}_t^T \mathbf{e}_i) 。
    • 节点限制路由:为了优化跨节点通信,每个 Token 最多只被发送到 4个计算节点,实现了高效的 计算-通信重叠。
    • 无Token丢弃:得益于其负载均衡策略,在 训练和推理过程中均不丢弃任何Token。
    • 层结构:模型共包含 61层 Transformer,隐藏层维度为 7168。除前3层外,所有前馈网络(FFN)层均被替换为上述的 MoE 层。
  2. 多头潜在注意力 (MLA):
    MLA 是对标准注意力机制的高效改进,旨在减少推理时的 KV 缓存。
    • 配置:采用 128个注意力头,每头维度为 128。
    • 核心创新:对注意力中的键(K)和值(V)进行低秩联合压缩。具体通过一个线性变换将隐藏状态投影到一个 512维 的潜在向量: \mathbf{c}_t^{KV} = W^{DKV} \mathbf{h}_t 。
    • 优势:这种压缩显著降低了自回归解码过程中需要缓存的 KV 状态大小,提升了推理效率。
    ⚙️ 训练策略与优化创新
    DeepSeek-V3 的训练融合了多项自研优化技术,旨在实现极致的训练效率与稳定性。
  3. 创新的负载均衡策略:无辅助损失负载均衡
    传统 MoE 训练常使用辅助损失函数来平衡专家负载,但可能损害模型性能。DeepSeek-V3 首次采用了 无辅助损失的负载均衡策略。
    • 动态偏置调整:在路由时为每个专家的亲和性得分添加一个可学习的偏置项 b_i ,该偏置仅用于路由选择决策,不参与最终门控值计算。训练中持续监控专家负载:
    • 若某专家过载,则将其偏置减少 \gamma 。
    • 若某专家欠载,则将其偏置增加 \gamma 。
    • 序列级平衡损失:作为补充,引入一个极轻量级的序列级平衡损失 \mathcal{L}{\text{Bal}} = \alpha \sum^{N_r} f_i P_i ,以防止单个序列内部出现极端的负载不平衡。
  4. 并行与通信优化
    • 混合并行策略:训练采用混合并行方式,包括 16路流水线并行 (PP)、64路专家并行 (EP) 以及 ZeRO-1 数据并行 (DP)。通过精细的内存优化,无需使用昂贵的张量并行 (TP)。
    • DualPipe 算法:采用自研的 DualPipe 流水线并行算法,有效减少流水线气泡,并通过重叠前向/反向传播与通信阶段,隐藏了大部分通信开销。
    • 高效通信内核:开发了专用的跨节点全对全(All-to-All)通信内核,以充分利用 InfiniBand 和 NVLink 的带宽。
  5. 内存与精度优化:FP8混合精度训练
    DeepSeek-V3 首次在极大规模模型上成功验证了FP8训练的可行性和有效性。
    • 细粒度量化:对激活值和权重采用分块量化策略(Tile-wise 或 Block-wise分组),在计算密集型操作中使用 FP8 格式。
    • 高精度保留:为确保训练稳定性,嵌入层、输出头、MoE门控、归一化算子及注意力算子等关键模块仍保留 BF16/FP32 精度。主权重、梯度及优化器状态也以更高精度存储。
    • 收益:此举大幅降低了 GPU 内存占用并加速了训练计算。
  6. 核心训练技巧
    • 多令牌预测 (Multi-Token Prediction, MTP):将传统的“预测下一个Token”目标扩展为同时预测未来多个 Token(深度 D=1)。这不仅增加了训练信号密度、提升数据效率,也使模型学会为未来 Token 预规划表示。该目标还可用于推测解码 (Speculative Decoding),实现约 1.8倍 的推理加速,且第二 Token 接受率高达 85%-90%。
    • 长上下文扩展:采用两阶段策略将上下文长度从 4K 扩展至 128K。使用 YaRN 方法对旋转位置编码 (RoPE) 进行插值,并在扩展后保持了强大的模型性能。
    📊 训练效率总结
    得益于上述架构与训练策略的深度协同优化,DeepSeek-V3 实现了惊人的训练效率:
    • 总训练成本:完整训练(包含预训练、长下文扩展及后续训练)仅消耗 2.788M(278.8万) H800 GPU 小时。
    • 预训练效率:每训练 1万亿(1T) Token 仅需 180K(18万) H800 GPU 小时。
    • 极致稳定性:在整个 14.8T Token 的预训练过程中,没有出现任何不可恢复的损失尖峰或需要回滚的情况。
    DeepSeek-V3 通过其高度精细化的 MoE 架构、创新的训练优化算法以及极致的工程实现,树立了以可控成本训练超大规模、高性能语言模型的新典范。
    二、DeepSeek-V4 架构升级与新增特性
    基于DeepSeek-V3奠定的高效基础,DeepSeek-V4系列为实现百万令牌(Million-Token)上下文的高效智能,在架构、训练及功能层面进行了系统性、突破性升级。本次演进不仅保留了前代的核心优势,更通过一系列深层次创新,显著提升了长序列处理效率、训练稳定性与终端功能表现。
  7. 核心架构的系统性升级
    DeepSeek-V4在Transformer主干上实施了多项关键优化,旨在强化模型容量与效率的边界。
    1.1 MoE(混合专家)结构的精细化优化
    V4延续了DeepSeekMoE范式,但在细节上进行了重要调整:
    • 激活函数调整:将计算专家亲和力分数的激活函数从V3使用的 Sigmoid(·) 改为 Sqrt(Softplus(·))。
    • 负载均衡策略增强:在V3无辅助损失策略基础上,增加了轻微序列级平衡损失,以防止单个序列内部的极端专家负载不平衡。
    • 路由约束放宽:移除了V3中对路由目标节点数量的硬性限制,并重新设计了并行策略以保持高训练效率。
    • 早期层结构调整:相比V3仅在前3层使用密集FFN,V4将前几个Transformer块中的密集FFN层也替换为采用Hash路由的MoE层。Hash路由根据预定义的哈希函数(关于输入token ID)确定每个token的目标专家。
    • 参数精度优化:为降低内存与计算需求,路由专家参数使用了FP4精度进行存储与计算。
    1.2 注意力机制的突破性创新:混合注意力架构
    为攻克超长上下文效率瓶颈,V4设计了全新的混合注意力架构,结合了两种高效的注意力机制:
    • 压缩稀疏注意力(CSA):
    • 首先,将每 m 个token的KV缓存压缩为一个条目。
    • 然后,应用DeepSeek稀疏注意力(DSA),每个查询token只关注 k 个压缩后的KV条目。
    • 重度压缩注意力(HCA):
    • 采用更激进的压缩,将每 m‘ 个token(m’ ≫ m)的KV缓存合并为一个条目。
    • 保持密集注意力计算,但操作于高度压缩的KV表示上。
    • 效率提升技术:
    • 混合存储格式:KV条目采用混合精度存储——RoPE维度使用BF16,其余维度使用FP8,使KV缓存大小相比纯BF16存储减少近一半。
    • 低精度计算:在极长上下文场景的“闪电索引器”中,注意力计算使用FP4精度以加速运算。
    • 更小的注意力top-k:相比V3.2,选择了更小的注意力top-k值,提升了短文本和中等长度文本的处理效率。
    • 模型配置差异:
    • DeepSeek-V4-Flash:前两层使用纯滑动窗口注意力,后续层交替使用CSA和HCA。
    • DeepSeek-V4-Pro:前两层使用HCA,后续层交替使用CSA和HCA。
    1.3 整体架构的关键调整
    • 残差连接增强:引入了流形约束超连接(mHC) 来加强传统残差连接。mHC将残差映射约束到特定流形上,在保持模型表达力的同时,增强了跨层信号传播的稳定性。
    • 优化器升级:大多数模块采用Muon优化器,以实现更快的收敛和更好的训练稳定性。同时,保留了AdamW优化器用于特定模块:嵌入层、预测头、mHC模块的静态偏置和门控因子,以及所有RMSNorm模块的权重。
    • 注意力归一化:允许直接对注意力查询和KV条目应用RMSNorm,有效防止注意力logits爆炸,因此未在Muon优化器中采用QK-Clip技术。
    • 架构继承:保留了Transformer架构和多token预测(MTP)模块(配置与V3完全相同),所有其他未指定的细节遵循DeepSeek-V3的设置。
  8. 训练与优化的革新策略
    2.1 创新的训练策略
    • 两阶段上下文长度扩展:采用渐进式扩展策略,从4K开始,逐步扩展到16K、64K,最终达到1M token。在长上下文训练中采用两阶段方法,逐步引入稀疏注意力。
    • 动态批大小调度:采用从小到大的动态批大小调度。
    • DeepSeek-V4-Flash最大批大小为 75.5M token。
    • DeepSeek-V4-Pro最大批大小为 94.4M token。
    2.2 数据处理与预训练增强
    • 数据规模与质量:预训练语料规模超过 32T token。实施了更严格的过滤策略,移除批量自动生成和低质量“思考”内容,并更注重具有独特学术价值的长文档数据整理。
    • 词汇与分词:在V3分词器基础上引入少量特殊令牌,词汇表大小保持128K。采用文档级注意力掩码以最小化样本截断。
    2.3 后训练流程的全面革新
    • 用策略蒸馏替代混合RL:关键变化是完全用策略蒸馏(OPD) 替换了传统的混合强化学习阶段。采用两阶段范式:1) 独立培养领域特定专家(数学、编码、代理等);2) 通过策略蒸馏进行统一模型整合。
    • 专家训练流程:每个领域专家依次进行监督微调(SFT)和在定制奖励信号下的强化学习(使用组相对策略优化GRPO)。
    • 生成式奖励模型(GRM):放弃传统标量奖励模型,转为使用生成式奖励模型评估策略轨迹,并直接对GRM本身进行RL优化,实现了评估能力与生成能力的联合优化。
  9. 新增功能与部署优化
    3.1 新的推理与交互模式
    • 多级别推理努力模式:V4系列支持可配置的推理努力模式,为用户提供性能与效率的灵活权衡。不同模式使用专门的响应格式(由标记界定)。
    • 情境化思考内容管理:利用百万令牌上下文,优化了代理任务中的思考保留策略。
    • 工具调用场景:完整保留整个对话中的所有推理内容,支持长视野的连贯思维链。
    • 一般对话场景:保留原有策略,在新用户消息到达时丢弃之前的推理内容。
    3.2 增强的代理与工具使用能力
    • 全新的工具调用模式:引入基于 XML格式 的新工具调用模式,使用特殊的“|DSML|”标记,有效减少转义失败和调用错误。
    • 专用代理评估框架:在代码代理(如SWE-Verified)和搜索代理任务中,使用支持复杂交互和长上下文(高达512K令牌)的内部评估框架。
    3.3 面向百万令牌的部署优化
    • 定制化KV缓存管理:为混合注意力架构设计了异构的KV缓存布局(压缩/稀疏KV缓存和Heavy-KV缓存),以高效管理超长序列。
    • 基础设施深度优化:
    • 计算-通信重叠:为MoE模块设计单一融合内核,完全重叠计算、通信和内存访问。
    • 领域特定语言:使用TileLang平衡开发与运行时效率。
    • 确定性内核库:提供批量不变与确定性内核库,确保训练和推理的比特级可复现性。
    • 显著效率提升(与V3.2对比):
    • DeepSeek-V4-Pro:在100万令牌上下文中,单令牌推理FLOPs降至 27%,KV缓存大小降至 10%。
    • DeepSeek-V4-Flash:在100万令牌上下文中,单令牌推理FLOPs降至 10%,KV缓存大小降至 7%。
    (注:根据所提供的资料,未提及DeepSeek-V4相比V3在多模态功能方面有任何新增或变化。)
    通过上述系统性升级,DeepSeek-V4不仅继承了前代模型的效率基因,更通过混合注意力架构、流形约束超连接、Muon优化器及全新的训练蒸馏流程,构建了能够高效理解与生成百万令牌级内容的下一代模型基础,同时在代理能力、工具调用和用户体验上实现了显著增强。
    三、性能基准对比:V3 vs V4
    随着架构的全面升级,DeepSeek-V4 相较于 V3 在多个核心性能维度上实现了显著提升,从基础能力到极致效率均有体现。
  10. 训练成本与效率对比
    尽管<搜集资料>中未直接提供 V4 与 V3 训练时间的精确百分比缩减数据,但 V4 的架构创新显著指向了训练效率的跃进。
    DeepSeek-V3 确立了高效的训练基准:其整个预训练过程消耗了 2.788 百万 H800 GPU 小时,完成了 14.8 T token 的训练,平均每训练 1 T token 仅需约 180 K H800 小时。报告指出其训练过程全程未出现不可恢复的损失尖峰,展现了极高的稳定性。作为对比,其总训练成本据估算约为 557.6 万美元,显著低于同期其他顶级模型(例如,其成本仅为传闻中 OpenAI GPT-4 训练成本的大约 1/18)。
    DeepSeek-V4 则通过多项关键技术,旨在进一步优化训练稳定性和收敛效率:
    • 训练稳定性革命:引入的流形约束超连接(mHC) 将训练过程中的信号放大倍数从传统方法的可能高达 3000倍 控制在约 1.6倍,从根本上避免了大规模模型训练中常见的“损失尖峰”和崩溃,极大减少了因训练中断和回滚所消耗的时间与资源。
    • 优化器升级:用 Muon 优化器 替代了 V3 使用的 AdamW(用于大多数参数),该优化器采用牛顿-舒尔茨正交化处理梯度动量,旨在实现更快的收敛速度和更强的训练稳定性。
    • 高效架构的延续与深化:V4 继承了 V3 已验证的 FP8 混合精度训练等高效策略,并通过混合注意力(CSA+HCA)等方式降低计算开销,这些设计同样惠及训练阶段。
    关键洞察:虽然缺乏直接的“训练时间减少X%”数据,但 V4 的设计哲学是通过架构层面的稳定性保障和优化算法革新来减少训练过程中的不确定性损耗与加速收敛,从而在达到更高性能目标的同时,控制甚至优化训练效率与成本。
  11. 基准测试得分对比
    在衡量模型核心能力的标准基准测试上,DeepSeek-V4 相比 V3 实现了全方位的显著提升。
    基准测试 DeepSeek-V3 得分 DeepSeek-V4 得分 性能提升与解读
    MMLU (综合知识理解) 88.5% 91.2% 提升约 2.7个百分点。V4 在广泛学科知识上的掌握能力进一步增强,接近顶级闭源模型水平。
    HumanEval (代码生成) 82.6% (HumanEval-Mul) 93.5% 提升约 10.9个百分点。这是一个代际级的飞跃,标志着 V4 的代码生成能力达到了近乎顶尖的水平。
    数学推理 (MATH-500) 90.2% 96.1% 提升约 5.9个百分点。证明 V4 在复杂数学问题解决和研究生级别推理能力上取得巨大进步。
    Codeforces 竞赛 51.6 百分位 3206 Elo 评分 (超越 GPT-5.4的 3168) 从百分比排名转变为高竞技 Elo 评分,标志着其竞技编程能力已跻身全球顶级模型行列。
    GSM8K (小学数学) 89.3% (在 MATH-500 中体现) 数学推理能力整体提升显著。
    工程能力 (SWE-Bench) 42.0% (Verified) 58.2% (基于上下文推论) 在实际软件工程任务上的表现有大幅提升,巩固了其在“工程+代码”领域的优势地位。
    对比总结:
    • 代码与数学成为最大亮点:V4 在 HumanEval 和 MATH-500 上的巨大进步,是其作为“推理专家”的核心体现,在编程和STEM领域达到了新的高度。
    • 综合知识稳步提升:MMLU 的进步表明模型在通用知识理解和多任务处理上的基础更加牢固。
    • 从“优秀”到“顶尖”:多项基准数据显示,V4 在多领域已从开源模型的领先者,发展为能与全球最顶尖闭源模型直接竞争的存在。
  12. 推理速度与效率对比
    在推理效率,尤其是长上下文处理方面,V4 相比 V3 实现了突破性的优化。
    DeepSeek-V3 的推理优化:
    • 采用 MLA (多头潜在注意力) 将 KV 缓存压缩至 512 维 潜在向量,大幅减少内存占用。
    • 支持 多令牌预测(MTP) 配合推测解码,可实现约 1.8倍 的令牌生成速度提升。
    DeepSeek-V4 的效率飞跃:
    官方在 100万令牌(1M token) 的长上下文场景下,提供了与 DeepSeek-V3.2 的直接对比数据,其提升幅度极为显著:
    效率指标 DeepSeek-V4-Pro (vs V3.2) DeepSeek-V4-Flash (vs V3.2)
    单令牌推理计算量 (FLOPs) 降至 27% 降至 10%
    KV 缓存占用 降至 10% 降至 7%
    这意味着:
  13. 计算量大幅降低:V4-Pro 的计算开销不到 V3.2 的三分之一,V4-Flash 更是仅需十分之一。
  14. 内存占用急剧减少:KV 缓存内存占用下降了 90% (Pro) 至 93% (Flash),这是支持百万令牌上下文实用化的关键。
  15. 架构动力:这一效率奇迹主要归功于 混合注意力架构(CSA+HCA) 对KV的极致压缩,以及 MoE路由专家参数FP4化 等技术。
    此外,在特定优化条件和硬件(如H100集群)下,有数据显示V4能实现更极致的 高达35倍的推理加速。而在更普遍的消费级硬件部署中,用户可预期获得 3至8倍 的实际加速体验。V4 通过预填充-解码分离架构、Engram条件记忆模块(可将部分稀疏参数卸载至DRAM)等创新,在维持万亿参数规模的同时,实现了令人瞩目的推理性价比。
  16. 架构升级带来的综合性能影响
    除了量化指标,V4 的关键架构改动直接定义了其性能边界:
    • 上下文长度:从 V3 的 128K 史诗级扩展至 V4 的 1M (100万),使其能够处理整本书籍、超长代码库等复杂文档,应用场景发生质变。
    • 精度与存储:V3 已验证 FP8混合精度 训练的可行性。V4 在此基础上,对 KV 缓存采用 RoPE维度BF16 + 其余部分FP8 的组合策略,并将路由专家参数全面推向 FP4 存储与计算,在精度与效率间找到更优平衡。
    • 路由与负载均衡:V3 采用节点受限路由(每令牌最多发往4个节点)。V4 则移除了节点数量上限,并重新设计并行策略,同时在前几层引入Hash路由MoE,增强了模型前期的处理能力。
    • 后训练方法:V3 使用混合RL进行对齐。V4 彻底转向 策略蒸馏(OPD) 和生成式奖励模型(GRM),这被认为是其能力在代码、数学等领域实现“代际飞跃”的重要训练学原因。
    综上所述,DeepSeek-V4 并非对 V3 的简单规模放大,而是一次在训练稳定性、核心能力上限、长上下文效率、以及部署经济性上的全面革新。它在基准测试上实现了从“卓越”到“顶尖”的跨越,并在长上下文推理效率上树立了新的行业标杆,同时通过开源和极具竞争力的成本结构,持续推动着大模型技术的普及与应用边界。
    四、关键技术突破与演进总结
    DeepSeek 系列模型从 V3 到 V4 的演进,并非零散的局部改进,而是一套以 “高总参、低激活、高效率、长语境” 为核心理念的、系统的技术体系升级。此次演进在继承V3所确立的“DeepSeekMoE”高效范式基础上,于架构、训练、后处理等多个维度完成了深度耦合的创新,其技术突破可总结为以下五大方面,共同构成了对百万token上下文实现高效、智能支持的技术基石。
  17. 混合专家 (MoE) 架构的持续精炼:从“均衡高效”到“灵活极简”
    V3 首创的 “无辅助损失”负载均衡策略 从根本上解决了传统MoE训练中平衡损失干扰模型性能的难题。V4 在此坚实基础上,对MoE架构进行了旨在极致简化与效率提升的演进:
    • 路由机制去约束化:移除了V3中“每个token最多发送至4个计算节点”的硬性限制,通过重新设计并行策略,在保持训练效率的同时,赋予了路由算法更大的灵活性。
    • 早期结构Hash化:在模型的前几个Transformer层中,创新性地引入了基于token ID哈希的确定性路由。这种“Hash路由”MoE层替代了原有的密集FFN,在模型最底层实现了一种无需学习的、完全均匀的专家分配,为后续的柔性路由提供了更稳定的输入基础。
    • 参数存储与计算FP4化:对路由专家参数全面采用FP4精度进行存储和计算。这一激进但精准的降精度策略,是支撑百万token上下文模型内存效率的关键一环,大幅降低了MoE模块的内存与计算开销。
    • 激活函数与平衡微调:将计算亲和力分数的激活函数从V3的 Sigmoid 优化为 Sqrt(Softplus),并叠加了极轻量级的序列级平衡损失,进一步细化了负载均衡的粒度。
    演进脉络:V3 解决了MoE“如何平衡”的核心矛盾 → V4 则致力于在已平衡的框架下,实现 “更简、更省、更灵活”,为超长上下文扩展扫清了内存瓶颈。
  18. 注意力机制的根本性重构:从“统一压缩”到“分级混合”
    注意力机制是处理长上下文的核心瓶颈。V3 的 多头潜在注意力 (MLA) 通过低秩联合压缩KV,显著减少了缓存。V4 则实现了更为根本的范式跃迁,设计了 混合注意力架构,根据信息密度进行分级处理:
    • 架构革新:CSA + HCA 混合:
    • 压缩稀疏注意力 (CSA):先对每 m 个token的KV进行压缩,再应用DeepSeek稀疏注意力(top-k选取),专注于处理信息密度较高的局部上下文。
    • 重度压缩注意力 (HCA):以更激进的压缩率(每 m’ 个token,m’ >> m)合并KV,但保持密集注意力计算,用以维持对全局背景的感知。
    • 分级存储与计算优化:
    • KV混合存储:RoPE维度用BF16,其余维度用FP8,整体缓存大小降至纯BF16存储的近一半。
    • FP4注意力计算:在“闪电索引器”中,使用FP4精度进行注意力计算,极大加速了超长序列下的注意力操作。
    • 配置分化:针对不同场景推出 V4-Flash(前两层纯滑动窗口)与 V4-Pro(前两层HCA),实现了效率与性能的精准权衡。
    演进脉络:V3 的MLA是全局性、均质的压缩 → V4 的混合架构是局部稀疏、全局稠密、按需分配的 “分层治之” 策略。这使得V4在处理百万token时,单token FLOPs(V4-Pro: 27%, V4-Flash: 10%)和KV缓存(V4-Pro: 10%, V4-Flash: 7%)相比V3.2实现了数量级下降。
  19. 训练与优化的系统性升级:从“稳定训练”到“可控收敛”
    训练超大规模、超长序列模型面临严峻的稳定性挑战。V3已验证了FP8混合精度训练的可行性,V4则在优化器和稳定性控制上引入了更深层的创新:
    • 优化器换代:将主要优化器从 AdamW 升级为 Muon优化器(基于牛顿-舒尔茨正交化的动量方法),以获得更快的收敛速度和更好的稳定性。同时,策略性地对嵌入层、预测头等敏感模块保留AdamW,形成混合优化策略。
    • 稳定性增强组件:引入 流形约束超连接 (mHC),将跨层的信号放大倍数从约3000倍约束至约1.6倍,有效抑制了训练过程中的损失尖峰,这是实现稳定训练百万token模型的关键技术之一。
    • 长上下文扩展策略细化:从V3的两阶段(4K→128K)演进为V4的三阶段渐进式扩展(4K→16K→64K→1M),并逐步引入稀疏注意力,配合动态批大小调度,使模型平稳适应不同尺度的上下文。
    演进脉络:V3 关注 “能否稳定训完” → V4 关注 “如何更快、更稳、更可控地训得更好”,通过新的优化器和稳定性机制,驾驭了更复杂、更漫长的训练过程。
  20. 后训练范式的完全革新:从“混合强化”到“策略蒸馏”
    在模型对齐与能力激发方面,V4完成了一次后训练范式的彻底替换,转向更高效、更可控的路径。
    • 范式转换:完全摒弃了V3中使用的混合强化学习 (RL) 方法,采用 两阶段策略蒸馏 (OPD)。
    • 流程重塑:
  21. 专家独立培养:针对数学、编码、指令遵循等不同领域,独立进行SFT和基于GRPO的强化学习,培养“领域专家”。
  22. 统一蒸馏整合:将多个专家的能力通过蒸馏技术融合到单一模型中。
    • 奖励模型革新:用 生成式奖励模型 (GRM) 替代传统的标量奖励模型,并对GRM本身进行RL优化,实现了评估能力与生成能力的联合优化,获得更鲁棒的评分。
    演进脉络:V3 的后训练是 “多种方法混合并用” → V4 的后训练是 “先分而治之,再合一统之” 的系统工程,路径更清晰,旨在更精准地锻造模型在特定领域的顶尖能力。
  23. 长上下文支持:从“能力具备”到“效率实用”
    V3 已将上下文窗口扩展至128K,证明了其长文本处理能力。V4 的突破在于,不仅将窗口提升至 1M token,更关键的是通过前述所有技术,使处理如此长的上下文变得高效、实用。
    • 效率实现:正是依靠混合注意力架构对计算和内存的极致优化、MoE的FP4化对参数的压缩,以及训练稳定性技术的保障,才使得1M上下文从“理论可能”变为“实际可用”。
    • 代理能力增强:特别优化了工具调用场景下的交织思考策略,在百万token窗口内完整保留所有推理链,实现了真正具有长视野、可持续的智能体交互。
    总结而言,DeepSeek-V3 到 V4 的演进,是一条贯穿 **架构设计 → 训练优化 → 能力对齐 → 效率落地 ** 的完整技术链。每一次突破都不是孤立的:更灵活的MoE和更高效的注意力降低了长上下文的基础开销;更稳定的训练技术确保了复杂模型的可训练性;更先进的后训练范式激发了模型潜能。这些技术相互支撑、共同迭代,最终推动大模型的能力边界从“数十万token”迈向“百万token”的实用新时代,并在此过程中,始终坚守着以更低能耗、更高效率实现更强性能的技术发展路线。
posted @ 2026-04-24 15:41  Xu_Lin  阅读(35)  评论(0)    收藏  举报