DeepSeek V4 Pro 永久降价 75%：旗舰推理模型进入白菜价时代

DeepSeek 刚做了一个让整个 LLM API 市场震动的决定：V4 Pro 的 75% 折扣永久化。

这不是限时促销。从 2026 年 5 月 31 日促销期结束后，V4 Pro 的定价将正式调整为原价的 1/4。一个支持 1M 上下文、具备推理能力、开源权重的旗舰模型，输入 $0.435/百万 token，输出 $0.87/百万 token。

这篇文章涵盖什么

降价详情和新旧价格对比
V4 Pro 的核心能力
与竞品的详细价格对比
对行业的影响分析

降价详情

DeepSeek V4 Pro 定价调整（单位：美元/百万 token）：

项目	原价	新价（永久）	降幅
输入（缓存未命中）	$1.74	$0.435	75%
输出	$3.48	$0.87	75%
输入（缓存命中）	$0.0145	$0.003625	75%

同时，V4 Flash 的缓存命中价格也降到了原价的 1/10（$0.0028/百万 token），5 月 26 日生效。

时间线：

现在 ~ 5 月 31 日：促销折扣期，已经是新价格
5 月 31 日之后：新价格正式永久生效

V4 Pro 核心能力

特性	V4 Pro	V4 Flash
上下文窗口	1M tokens	1M tokens
最大输出	384K tokens	384K tokens
推理模式	支持（可开关）	支持（可开关）
工具调用	✅	✅
JSON 输出	✅	✅
FIM 补全	非推理模式	非推理模式
开源权重	✅	✅
并发限制	500	2500

两个模型都支持 OpenAI 和 Anthropic 两种 API 格式，迁移成本低。

与竞品价格对比

选当前市场上主流的推理模型对比（单位：美元/百万 token）：

旗舰级推理模型

模型	输入	输出	缓存读	上下文	DeepSeek 便宜多少
DeepSeek V4 Pro	$0.435	$0.87	$0.0036	1M	—
Claude Sonnet 4.6	$3	$15	$0.3	1M	输出便宜 17 倍
GPT-5.5	$5	$30	$0.5	1050k	输出便宜 34 倍
Gemini 3.5 Flash	$1.5	$9	$0.15	1048k	输出便宜 10 倍
Grok 4.3	$1.25	$2.5	$0.2	1M	输出便宜 2.9 倍
GPT-5.4	$2.5	$15	$0.25	1050k	输出便宜 17 倍
o3	$2	$8	$0.5	200k	输出便宜 9 倍

V4 Pro 在所有旗舰推理模型中价格最低，同时保持了 1M 上下文窗口。

超高性价比模型

模型	输入	输出	上下文	推理	开源
DeepSeek V4 Flash	$0.14	$0.28	1M	✅	✅
GPT-5.4 nano	$0.2	$1.25	400k	✅	—
GPT-5 Nano	$0.05	$0.4	400k	✅	—
Gemini 3.1 Flash Lite	$0.25	$1.5	1048k	✅	—
Mistral Small	$0.15	$0.6	256k	✅	✅
GPT-5 Mini	$0.25	$2	400k	✅	—

V4 Flash 以 $0.14/$0.28 的价格 + 1M 上下文 + 推理 + 开源权重，仍然是性价比之王。

实际使用成本对比

假设一个典型任务：100K token 输入（50% 缓存命中），10K token 输出：

模型	单次成本
DeepSeek V4 Pro	$0.011
DeepSeek V4 Flash	$0.004
Claude Sonnet 4.6	$0.165
GPT-5.5	$0.305
Gemini 3.5 Flash	$0.098
Grok 4.3	$0.026

同样的任务，V4 Pro 的成本是 GPT-5.5 的 1/28，是 Claude Sonnet 4.6 的 1/15。

DeepSeek 全产品线定价

模型	输入	输出	缓存读	定位
V4 Flash	$0.14	$0.28	$0.0028	性价比日常模型
V4 Pro	$0.435	$0.87	$0.0036	旗舰推理模型

注：旧的 deepseek-chat 对应 V4 Flash 非推理模式，deepseek-reasoner 对应 V4 Flash 推理模式，未来会逐步弃用。

为什么 DeepSeek 能这么便宜

DeepSeek 的低价不是烧钱补贴，而是技术效率的结果：

MoE 架构：DeepSeek-V4 采用混合专家模型，每次推理只激活部分参数，降低计算量
MLA 注意力机制：Multi-head Latent Attention 减少KV 缓存大小，降低内存和带宽成本
DualPipe 并行：自研的训练/推理并行方案，提高硬件利用率
FP8 混合精度：推理阶段使用 8 位浮点，减少计算和显存消耗
开源生态：权重开源意味着社区帮助优化，推理成本持续下降

对行业的影响

1. LLM API 进入价格战深水区

DeepSeek 每次降价都会引发连锁反应。这次旗舰模型降到 $0.435/$0.87，其他厂商面临跟随或不跟随的两难。不跟，客户流失；跟，利润压缩。

2. 推理能力不再是溢价理由

此前，推理（Reasoning）能力是高端模型的标志，OpenAI o3 收 $2/$8，Claude Opus 4.7 收 $5/$25。DeepSeek V4 Pro 证明了推理能力可以在极低成本下提供。

3. AI 应用开发门槛实质性降低

$0.435/百万 token 的价格意味着：

处理 100 万 token 文档只需 $0.435
一天处理 1000 次中等复杂度任务约 $5-10
中小团队可以大规模使用旗舰级推理能力，而不需要预算审批

4. 开源权重的降维打击

V4 Pro 和 V4 Flash 都开源了权重。这意味着你甚至可以在自己的 GPU 上免费运行——对于有本地算力的团队，成本趋近于零。

开发者怎么用

OpenAI 格式

from openai import OpenAI

client = OpenAI(api_key="your-key", base_url="https://api.deepseek.com")

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "解释量子计算"}],
)

Anthropic 格式

from anthropic import Anthropic

client = Anthropic(api_key="your-key", base_url="https://api.deepseek.com/anthropic")

response = client.messages.create(
    model="deepseek-v4-pro",
    max_tokens=4096,
    messages=[{"role": "user", "content": "解释量子计算"}],
)

V4 Pro 支持两种 API 格式，从 OpenAI 或 Anthropic 迁移只需要改 base_url 和 API key。

适用场景

高吞吐场景：客服、数据分析、批量处理，V4 Flash 极低成本
复杂推理：代码生成、数学证明、多步规划，V4 Pro 旗舰能力 + 低价
长文档处理：1M 上下文窗口处理完整代码库、长报告
初创团队：旗舰模型能力，花不到竞品 1/10 的钱
自部署：开源权重，有 GPU 的团队可以零成本本地运行

作者: itech001
来源: 公众号：AI人工智能时代
网站: https://www.theaiera.cn/
每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代，转载请注明出处。

posted @ 2026-05-23 10:30 iTech 阅读(1639) 评论(0) 收藏举报

刷新页面返回顶部

iTech's Blog

AI人工智能时代 www.theaiera.cn