DeepSeek V4 Pro 永久降价 75%:旗舰推理模型进入白菜价时代
DeepSeek 刚做了一个让整个 LLM API 市场震动的决定:V4 Pro 的 75% 折扣永久化。
这不是限时促销。从 2026 年 5 月 31 日促销期结束后,V4 Pro 的定价将正式调整为原价的 1/4。一个支持 1M 上下文、具备推理能力、开源权重的旗舰模型,输入 $0.435/百万 token,输出 $0.87/百万 token。
这篇文章涵盖什么
- 降价详情和新旧价格对比
- V4 Pro 的核心能力
- 与竞品的详细价格对比
- 对行业的影响分析
降价详情
DeepSeek V4 Pro 定价调整(单位:美元/百万 token):
| 项目 | 原价 | 新价(永久) | 降幅 |
|---|---|---|---|
| 输入(缓存未命中) | $1.74 | $0.435 | 75% |
| 输出 | $3.48 | $0.87 | 75% |
| 输入(缓存命中) | $0.0145 | $0.003625 | 75% |
同时,V4 Flash 的缓存命中价格也降到了原价的 1/10($0.0028/百万 token),5 月 26 日生效。
时间线:
- 现在 ~ 5 月 31 日:促销折扣期,已经是新价格
- 5 月 31 日之后:新价格正式永久生效
V4 Pro 核心能力
| 特性 | V4 Pro | V4 Flash |
|---|---|---|
| 上下文窗口 | 1M tokens | 1M tokens |
| 最大输出 | 384K tokens | 384K tokens |
| 推理模式 | 支持(可开关) | 支持(可开关) |
| 工具调用 | ✅ | ✅ |
| JSON 输出 | ✅ | ✅ |
| FIM 补全 | 非推理模式 | 非推理模式 |
| 开源权重 | ✅ | ✅ |
| 并发限制 | 500 | 2500 |
两个模型都支持 OpenAI 和 Anthropic 两种 API 格式,迁移成本低。
与竞品价格对比
选当前市场上主流的推理模型对比(单位:美元/百万 token):
旗舰级推理模型
| 模型 | 输入 | 输出 | 缓存读 | 上下文 | DeepSeek 便宜多少 |
|---|---|---|---|---|---|
| DeepSeek V4 Pro | $0.435 | $0.87 | $0.0036 | 1M | — |
| Claude Sonnet 4.6 | $3 | $15 | $0.3 | 1M | 输出便宜 17 倍 |
| GPT-5.5 | $5 | $30 | $0.5 | 1050k | 输出便宜 34 倍 |
| Gemini 3.5 Flash | $1.5 | $9 | $0.15 | 1048k | 输出便宜 10 倍 |
| Grok 4.3 | $1.25 | $2.5 | $0.2 | 1M | 输出便宜 2.9 倍 |
| GPT-5.4 | $2.5 | $15 | $0.25 | 1050k | 输出便宜 17 倍 |
| o3 | $2 | $8 | $0.5 | 200k | 输出便宜 9 倍 |
V4 Pro 在所有旗舰推理模型中价格最低,同时保持了 1M 上下文窗口。
超高性价比模型
| 模型 | 输入 | 输出 | 上下文 | 推理 | 开源 |
|---|---|---|---|---|---|
| DeepSeek V4 Flash | $0.14 | $0.28 | 1M | ✅ | ✅ |
| GPT-5.4 nano | $0.2 | $1.25 | 400k | ✅ | — |
| GPT-5 Nano | $0.05 | $0.4 | 400k | ✅ | — |
| Gemini 3.1 Flash Lite | $0.25 | $1.5 | 1048k | ✅ | — |
| Mistral Small | $0.15 | $0.6 | 256k | ✅ | ✅ |
| GPT-5 Mini | $0.25 | $2 | 400k | ✅ | — |
V4 Flash 以 $0.14/$0.28 的价格 + 1M 上下文 + 推理 + 开源权重,仍然是性价比之王。
实际使用成本对比
假设一个典型任务:100K token 输入(50% 缓存命中),10K token 输出:
| 模型 | 单次成本 |
|---|---|
| DeepSeek V4 Pro | $0.011 |
| DeepSeek V4 Flash | $0.004 |
| Claude Sonnet 4.6 | $0.165 |
| GPT-5.5 | $0.305 |
| Gemini 3.5 Flash | $0.098 |
| Grok 4.3 | $0.026 |
同样的任务,V4 Pro 的成本是 GPT-5.5 的 1/28,是 Claude Sonnet 4.6 的 1/15。
DeepSeek 全产品线定价
| 模型 | 输入 | 输出 | 缓存读 | 定位 |
|---|---|---|---|---|
| V4 Flash | $0.14 | $0.28 | $0.0028 | 性价比日常模型 |
| V4 Pro | $0.435 | $0.87 | $0.0036 | 旗舰推理模型 |
注:旧的 deepseek-chat 对应 V4 Flash 非推理模式,deepseek-reasoner 对应 V4 Flash 推理模式,未来会逐步弃用。
为什么 DeepSeek 能这么便宜
DeepSeek 的低价不是烧钱补贴,而是技术效率的结果:
- MoE 架构:DeepSeek-V4 采用混合专家模型,每次推理只激活部分参数,降低计算量
- MLA 注意力机制:Multi-head Latent Attention 减少KV 缓存大小,降低内存和带宽成本
- DualPipe 并行:自研的训练/推理并行方案,提高硬件利用率
- FP8 混合精度:推理阶段使用 8 位浮点,减少计算和显存消耗
- 开源生态:权重开源意味着社区帮助优化,推理成本持续下降
对行业的影响
1. LLM API 进入价格战深水区
DeepSeek 每次降价都会引发连锁反应。这次旗舰模型降到 $0.435/$0.87,其他厂商面临跟随或不跟随的两难。不跟,客户流失;跟,利润压缩。
2. 推理能力不再是溢价理由
此前,推理(Reasoning)能力是高端模型的标志,OpenAI o3 收 $2/$8,Claude Opus 4.7 收 $5/$25。DeepSeek V4 Pro 证明了推理能力可以在极低成本下提供。
3. AI 应用开发门槛实质性降低
$0.435/百万 token 的价格意味着:
- 处理 100 万 token 文档只需 $0.435
- 一天处理 1000 次中等复杂度任务约 $5-10
- 中小团队可以大规模使用旗舰级推理能力,而不需要预算审批
4. 开源权重的降维打击
V4 Pro 和 V4 Flash 都开源了权重。这意味着你甚至可以在自己的 GPU 上免费运行——对于有本地算力的团队,成本趋近于零。
开发者怎么用
OpenAI 格式
from openai import OpenAI
client = OpenAI(api_key="your-key", base_url="https://api.deepseek.com")
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "解释量子计算"}],
)
Anthropic 格式
from anthropic import Anthropic
client = Anthropic(api_key="your-key", base_url="https://api.deepseek.com/anthropic")
response = client.messages.create(
model="deepseek-v4-pro",
max_tokens=4096,
messages=[{"role": "user", "content": "解释量子计算"}],
)
V4 Pro 支持两种 API 格式,从 OpenAI 或 Anthropic 迁移只需要改 base_url 和 API key。
适用场景
- 高吞吐场景:客服、数据分析、批量处理,V4 Flash 极低成本
- 复杂推理:代码生成、数学证明、多步规划,V4 Pro 旗舰能力 + 低价
- 长文档处理:1M 上下文窗口处理完整代码库、长报告
- 初创团队:旗舰模型能力,花不到竞品 1/10 的钱
- 自部署:开源权重,有 GPU 的团队可以零成本本地运行
作者: itech001
来源: 公众号:AI人工智能时代
网站: https://www.theaiera.cn/
每日分享最前沿的AI新闻资讯和技术研究。
本文首发于 AI人工智能时代,转载请注明出处。

浙公网安备 33010602011771号