DeepSeek V4 Pro 永久降价 75%:旗舰推理模型进入白菜价时代

DeepSeek 刚做了一个让整个 LLM API 市场震动的决定:V4 Pro 的 75% 折扣永久化。

这不是限时促销。从 2026 年 5 月 31 日促销期结束后,V4 Pro 的定价将正式调整为原价的 1/4。一个支持 1M 上下文、具备推理能力、开源权重的旗舰模型,输入 $0.435/百万 token,输出 $0.87/百万 token。

这篇文章涵盖什么

  • 降价详情和新旧价格对比
  • V4 Pro 的核心能力
  • 与竞品的详细价格对比
  • 对行业的影响分析

降价详情

DeepSeek V4 Pro 定价调整(单位:美元/百万 token):

项目 原价 新价(永久) 降幅
输入(缓存未命中) $1.74 $0.435 75%
输出 $3.48 $0.87 75%
输入(缓存命中) $0.0145 $0.003625 75%

同时,V4 Flash 的缓存命中价格也降到了原价的 1/10($0.0028/百万 token),5 月 26 日生效。

时间线:

  • 现在 ~ 5 月 31 日:促销折扣期,已经是新价格
  • 5 月 31 日之后:新价格正式永久生效

V4 Pro 核心能力

特性 V4 Pro V4 Flash
上下文窗口 1M tokens 1M tokens
最大输出 384K tokens 384K tokens
推理模式 支持(可开关) 支持(可开关)
工具调用
JSON 输出
FIM 补全 非推理模式 非推理模式
开源权重
并发限制 500 2500

两个模型都支持 OpenAI 和 Anthropic 两种 API 格式,迁移成本低。

与竞品价格对比

选当前市场上主流的推理模型对比(单位:美元/百万 token):

旗舰级推理模型

模型 输入 输出 缓存读 上下文 DeepSeek 便宜多少
DeepSeek V4 Pro $0.435 $0.87 $0.0036 1M
Claude Sonnet 4.6 $3 $15 $0.3 1M 输出便宜 17 倍
GPT-5.5 $5 $30 $0.5 1050k 输出便宜 34 倍
Gemini 3.5 Flash $1.5 $9 $0.15 1048k 输出便宜 10 倍
Grok 4.3 $1.25 $2.5 $0.2 1M 输出便宜 2.9 倍
GPT-5.4 $2.5 $15 $0.25 1050k 输出便宜 17 倍
o3 $2 $8 $0.5 200k 输出便宜 9 倍

V4 Pro 在所有旗舰推理模型中价格最低,同时保持了 1M 上下文窗口。

超高性价比模型

模型 输入 输出 上下文 推理 开源
DeepSeek V4 Flash $0.14 $0.28 1M
GPT-5.4 nano $0.2 $1.25 400k
GPT-5 Nano $0.05 $0.4 400k
Gemini 3.1 Flash Lite $0.25 $1.5 1048k
Mistral Small $0.15 $0.6 256k
GPT-5 Mini $0.25 $2 400k

V4 Flash 以 $0.14/$0.28 的价格 + 1M 上下文 + 推理 + 开源权重,仍然是性价比之王。

实际使用成本对比

假设一个典型任务:100K token 输入(50% 缓存命中),10K token 输出:

模型 单次成本
DeepSeek V4 Pro $0.011
DeepSeek V4 Flash $0.004
Claude Sonnet 4.6 $0.165
GPT-5.5 $0.305
Gemini 3.5 Flash $0.098
Grok 4.3 $0.026

同样的任务,V4 Pro 的成本是 GPT-5.5 的 1/28,是 Claude Sonnet 4.6 的 1/15。

DeepSeek 全产品线定价

模型 输入 输出 缓存读 定位
V4 Flash $0.14 $0.28 $0.0028 性价比日常模型
V4 Pro $0.435 $0.87 $0.0036 旗舰推理模型

注:旧的 deepseek-chat 对应 V4 Flash 非推理模式,deepseek-reasoner 对应 V4 Flash 推理模式,未来会逐步弃用。

为什么 DeepSeek 能这么便宜

DeepSeek 的低价不是烧钱补贴,而是技术效率的结果:

  • MoE 架构:DeepSeek-V4 采用混合专家模型,每次推理只激活部分参数,降低计算量
  • MLA 注意力机制:Multi-head Latent Attention 减少KV 缓存大小,降低内存和带宽成本
  • DualPipe 并行:自研的训练/推理并行方案,提高硬件利用率
  • FP8 混合精度:推理阶段使用 8 位浮点,减少计算和显存消耗
  • 开源生态:权重开源意味着社区帮助优化,推理成本持续下降

对行业的影响

1. LLM API 进入价格战深水区

DeepSeek 每次降价都会引发连锁反应。这次旗舰模型降到 $0.435/$0.87,其他厂商面临跟随或不跟随的两难。不跟,客户流失;跟,利润压缩。

2. 推理能力不再是溢价理由

此前,推理(Reasoning)能力是高端模型的标志,OpenAI o3 收 $2/$8,Claude Opus 4.7 收 $5/$25。DeepSeek V4 Pro 证明了推理能力可以在极低成本下提供。

3. AI 应用开发门槛实质性降低

$0.435/百万 token 的价格意味着:

  • 处理 100 万 token 文档只需 $0.435
  • 一天处理 1000 次中等复杂度任务约 $5-10
  • 中小团队可以大规模使用旗舰级推理能力,而不需要预算审批

4. 开源权重的降维打击

V4 Pro 和 V4 Flash 都开源了权重。这意味着你甚至可以在自己的 GPU 上免费运行——对于有本地算力的团队,成本趋近于零。

开发者怎么用

OpenAI 格式

from openai import OpenAI

client = OpenAI(api_key="your-key", base_url="https://api.deepseek.com")

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "解释量子计算"}],
)

Anthropic 格式

from anthropic import Anthropic

client = Anthropic(api_key="your-key", base_url="https://api.deepseek.com/anthropic")

response = client.messages.create(
    model="deepseek-v4-pro",
    max_tokens=4096,
    messages=[{"role": "user", "content": "解释量子计算"}],
)

V4 Pro 支持两种 API 格式,从 OpenAI 或 Anthropic 迁移只需要改 base_url 和 API key。

适用场景

  • 高吞吐场景:客服、数据分析、批量处理,V4 Flash 极低成本
  • 复杂推理:代码生成、数学证明、多步规划,V4 Pro 旗舰能力 + 低价
  • 长文档处理:1M 上下文窗口处理完整代码库、长报告
  • 初创团队:旗舰模型能力,花不到竞品 1/10 的钱
  • 自部署:开源权重,有 GPU 的团队可以零成本本地运行

作者: itech001
来源: 公众号:AI人工智能时代
网站: https://www.theaiera.cn/
每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代,转载请注明出处。

posted @ 2026-05-23 10:30  iTech  阅读(2)  评论(0)    收藏  举报