DeepSeek-V4 技术报告里藏着一条线:华为昇腾 NPU 已完成推理验证

今天 DeepSeek 发布了 V4 预览版,朋友圈和 Twitter 一下子炸了。百万 token 上下文、双模型架构、推理性能比肩顶级闭源模型——这些确实够劲爆。

但我翻完 4927 行的技术报告后,发现了一个很多人可能忽略的细节。

本文提纲

  1. 先说重点:华为昇腾 NPU 出现在技术报告里
  2. DeepSeek-V4 到底有多强
  3. 1M 上下文是怎么做到的
  4. V4-Pro vs V4-Flash:两个模型的定位
  5. 推理基础设施:国产芯片走到了哪一步
  6. 开发者最关心的:API 怎么用
  7. 我的判断

先说重点:华为昇腾 NPU 出现在技术报告里

翻到技术报告第 3.1 节"Fine-Grained Communication-Computation Overlap in Expert Parallelism",有这么一段话:

We validated the fine-grained EP scheme on both NVIDIA GPUs and HUAWEI Ascend NPUs platforms. Compared against strong non-fused baselines, it achieves 1.50 ~ 1.73× speedup for general inference workloads, and up to 1.96× for latency-sensitive scenarios such as RL rollouts and high-speed agent serving.

翻译一下:DeepSeek 的核心推理优化——MegaMoE 融合内核,已经在华为昇腾 NPU 上跑通了,而且性能提升幅度和 NVIDIA GPU 上一致:通用推理场景 1.5~1.73 倍加速,RL rollout 等延迟敏感场景最高 1.96 倍加速。

这不是象征性的兼容性测试,而是生产级推理内核的双平台验证

为什么这件事值得单独拿出来说?因为在当前美国的芯片出口管制下,NVIDIA H100/H800 对中国市场的供应受到了严格限制。如果大规模 MoE 模型的推理能在国产 NPU 上跑起来,而且是 DeepSeek 这种 1.6T 参数的顶级开源模型主动去做适配,这件事的意义远超一个 benchmark 数字。

当然,实事求是地说:技术报告里只提到了推理侧(inference)的 NPU 验证,预训练阶段用的仍然是 NVIDIA GPU 集群。但这已经是国产 AI 芯片在大模型推理场景下,最权威的一次实战验证了。

DeepSeek-V4 到底有多强

先看硬数据:

指标 DeepSeek-V4-Pro DeepSeek-V4-Flash
总参数 1.6T 284B
激活参数 49B 13B
最大上下文 1M (100万 tokens) 1M (100万 tokens)
最大输出 384K tokens 384K tokens
训练数据 33T tokens 32T tokens

V4-Pro 的对位选手是 Claude Opus 4.6 和 GPT-5.4。根据技术报告的 benchmark:

  • Agent Coding:内部评测中,85 名开发者的投票显示 52% 的人认为 V4-Pro 可以作为主力编码模型,体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式
  • 世界知识:大幅领先其他开源模型,仅稍逊于 Gemini-Pro-3.1
  • 推理:超越所有已公开评测的开源模型,接近顶级闭源模型水平

而 V4-Flash 呢?激活参数只有 13B,但推理能力和 V4-Pro 接近——简单任务上基本持平,只是高难度任务有差距。

价格更是杀手级:

模型 输入价格 输出价格
V4-Flash $0.14/M tokens $0.28/M tokens
V4-Pro $1.74/M tokens $3.48/M tokens

V4-Flash 的价格大概是 Claude Sonnet 的十分之一。这个定价摆明了是要把百万上下文变成普惠能力。

1M 上下文是怎么做到的

DeepSeek-V4 没有用传统的全注意力机制硬扛百万上下文,而是设计了一套混合注意力架构:

CSA(Compressed Sparse Attention)+ HCA(Heavily Compressed Attention)

核心思路是在 token 维度做压缩。传统的注意力机制每增加一倍上下文,计算量和显存就平方级增长。DeepSeek 的做法是:

  1. 先用 CSA 在 token 维度压缩——把连续的 KV 条目压缩成更紧凑的表示
  2. 对于需要更远距离依赖的场景,用 HCA 做更激进的压缩
  3. 配合 DSA(DeepSeek Sparse Attention)实现稀疏化

效果如何?在 1M 上下文场景下:
- V4-Pro 只需要 V3.2 的 27% 的推理 FLOPs
- KV Cache 大小只有 V3.2 的 10%
- V4-Flash 更狠:推理 FLOPs 只有 V3.2 的 10%,KV Cache 只有 7%

这意味着百万上下文不再是实验室里的炫技,而是真正可以在生产环境里跑起来的能力。

还有一个容易被忽略的架构创新:Manifold-Constrained Hyper-Connections(mHC)。它改进了传统的残差连接,让深层网络的信息流动更稳定。配合 Muon 优化器使用,训练收敛更快更稳。这部分开销被控制在 pipeline stage 的 6.7%,算是非常克制了。

V4-Pro vs V4-Flash:两个模型的定位

很多人会问:到底该用哪个?

简单粗暴地分:

选 V4-Flash 的场景
- 日常对话、文本生成、简单代码补全
- 需要低延迟、低成本的 API 调用
- 批量处理、分类、提取等非推理密集任务
- 预算敏感的项目

选 V4-Pro 的场景
- 复杂代码生成、Agent 编码
- 长文档理解和分析(百万级上下文)
- 数学推理、STEM 问题
- 需要 thinking mode 的复杂推理任务

V4-Flash 的思考模式(thinking mode)在推理任务上其实不弱,调大 thinking budget 后和 V4-Pro 的差距会缩小。但世界知识方面因为参数量差距,确实有明显差距。

推理基础设施:国产芯片走到了哪一步

回到华为昇腾这条线。DeepSeek 在技术报告里给出了几点对硬件厂商的建议,这些建议本身就是对 NPU 适配过程的总结:

  1. 计算-通信比比单纯的带宽更重要。每 GBps 的互联带宽可以隐藏 6.1 TFLOP/s 的计算量,超过这个阈值后继续堆带宽收益递减。这对国产芯片的设计方向很有指导意义——别盲目追带宽,找平衡点。

  2. 功耗预算。极限内核融合会让计算、显存、网络同时高负载运行,功耗墙成了关键性能瓶颈。国产芯片在高负载场景下的功耗管理还有优化空间。

  3. 通信原语。DeepSeek 采用了拉取式(pull-based)通信,因为细粒度推送的延迟太高。更低延迟的跨设备信号机制会让推送模式变得可行。

  4. 激活函数。建议用低成本逐元素激活函数替代 SwiGLU,减少指数运算和除法。

这些建议不是空谈——它们来自一个在 NVIDIA GPU 和华为 NPU 上都跑了大量实验的团队。这种双平台的实战经验,对国产芯片生态的建设价值巨大。

开发者最关心的:API 怎么用

API 兼容 OpenAI 和 Anthropic 接口,切换成本几乎为零:

# V4-Pro(思考模式)
client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "你的问题"}],
    # 开启思考模式
    extra_body={"thinking": {"type": "enabled", "budget_tokens": 10000}}
)
# V4-Flash(经济模式)
client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "你的问题"}]
)

几个注意点:
- deepseek-chatdeepseek-reasoner 将在 3 个月后(2026-07-24)停用,现在分别对应 V4-Flash 的非思考和思考模式
- V4-Pro 的思考模式支持 reasoning_effort 参数(high/max),复杂 Agent 场景建议用 max
- 最大上下文 1M,最大输出 384K
- 缓存输入有额外折扣:V4-Pro 缓存输入只要 $0.145/M,V4-Flash 只要 $0.028/M

模型权重已开源:HuggingFace 和 ModelScope 都能下载。技术报告也在 HuggingFace 上。

我的判断

DeepSeek-V4 的技术实力没什么好质疑的——开源模型做到这个水平,本身就是一件了不起的事。百万上下文的效率提升不是渐进式改进,是数量级的跨越。

但让我更兴奋的是华为昇腾 NPU 的出现。这不仅仅是一个兼容性声明,而是顶级大模型团队对国产 AI 芯片的正式认可。推理侧跑通了,训练侧还会远吗?

在芯片出口管制持续收紧的背景下,这件事的象征意义大于任何 benchmark 数字。DeepSeek 用行动证明了一件事:国产 NPU 适配大模型推理,不是"能不能"的问题,而是"已经做到了"。


作者: itech001
来源: 公众号:AI人工智能时代
主页: https://www.theaiera.cn,每日分享最前沿的AI新闻和技术。

本文首发于 AI人工智能时代,转载请注明出处。

posted @ 2026-04-24 13:53  iTech  阅读(134)  评论(0)    收藏  举报