Opus 4.6、GPT-5.3-Codex、Gemini 3.1 Pro 三个模型的 API 怎么选？

2 月份三家同时出牌。Anthropic 发了 Opus 4.6，OpenAI 发了 GPT-5.3-Codex，Google 发了 Gemini 3.1 Pro。

之前分别写过 Opus 4.6 的 effort 参数分档和 Gemini 3.1 Pro 的 thinking_level 选择，单个模型的用法已经聊过了。这篇做一件事：把三个模型放在一起，从 API 接入、定价、跑分和实际任务表现四个维度做横向对比，帮你决定项目里该接哪个。

核心参数

维度	Claude Opus 4.6	GPT-5.3-Codex	Gemini 3.1 Pro
发布日期	2026-02-05	2026-02-05	2026-02-19
上下文窗口	200K（1M Beta, Tier 4+）	400K（输入可用 ~272K）	1M
最大输出	128K tokens	128K tokens	16K-64K tokens
思考控制	effort: low/medium/high/max	无独立思考参数	thinking_level: LOW/MEDIUM/HIGH
多模态	文本 + 图像	文本 + 图像	文本 + 图像 + 视频 + 音频
推理速度	基准	比 5.2 快 25%	基准

三个关键差异：

上下文窗口。Gemini 的 1M 是默认可用的，Opus 的 1M 要 Tier 4 Beta 才能申请，GPT-5.3 只有 400K。如果你的应用需要塞入大型代码库或长文档，这直接决定了选择范围。
思考控制。Opus 和 Gemini 都能控制推理深度，GPT-5.3 不行。Opus 的 effort 影响思考 token、输出 token 和工具调用三者；Gemini 的 thinking_level 主要影响推理 token 预算。GPT-5.3 的推理行为由模型自己决定，开发者没有旋钮可调。
最大输出。Opus 和 GPT-5.3 都能输出 128K token，Gemini 上限 64K。如果你需要一次性生成大文件（比如完整的测试套件），Gemini 可能要分段。

API 接入

三家的 SDK 调用方式。

Claude Opus 4.6

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=8192,
    thinking={"type": "adaptive"},
    output_config={"effort": "high"},
    messages=[
        {"role": "user", "content": "重构这段代码，拆分成独立的模块"}
    ]
)

# 查看思考 token 消耗
print(f"输入: {response.usage.input_tokens}")
print(f"输出: {response.usage.output_tokens}")
# thinking token 在 usage 里有单独字段

effort 参数的详细用法我在上一篇写过。核心要点：默认是 high，大部分日常任务用 medium 就够了，能省 50% 左右的 token。

GPT-5.3-Codex

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.3-codex",
    messages=[
        {"role": "system", "content": "你是一个 DevOps 专家"},
        {"role": "user", "content": "写一个监控 Nginx 502 错误率的脚本，超过阈值自动重启"}
    ],
    max_tokens=4096,
)

print(response.choices[0].message.content)
print(f"输入: {response.usage.prompt_tokens}")
print(f"输出: {response.usage.completion_tokens}")

GPT-5.3 没有 effort 之类的参数。它的 Agent 行为在 Codex App 和 CLI 里是自动的（自己跑代码、读错误、修改重试），API 层面它就是一个常规的 chat completion 接口。

Gemini 3.1 Pro

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="分析这段代码的安全漏洞",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
            thinking_level="MEDIUM"
        )
    ),
)

print(response.text)
print(f"推理 token: {response.usage_metadata.thoughts_token_count}")
print(f"输出 token: {response.usage_metadata.candidates_token_count}")

thinking_level 的详细说明见 Gemini 3.1 Pro 上手笔记。默认是 HIGH，记得手动改成 MEDIUM，否则每次请求都会触发 Deep Think Mini，推理 token 爆涨。

统一接口调用

如果你不想维护三套 SDK，可以通过 OpenAI 兼容格式统一调用。Gemini 和 Claude 都支持：

from openai import OpenAI

# Gemini
gemini_client = OpenAI(
    api_key="GEMINI_KEY",
    base_url="https://generativelanguage.googleapis.com/v1beta/openai/"
)

# Claude (通过 Anthropic 的 OpenAI 兼容端点或第三方网关)
# 具体 base_url 取决于你用的代理

# GPT-5.3 (原生)
openai_client = OpenAI()

好处是上层代码可以用同一个接口做路由切换。坏处是会丢掉一些模型特有的参数（比如 Opus 的 effort、Gemini 的 thinking_level）。如果你需要精细控制，还是建议各用各的 SDK。

定价对比

标准 API 价格（每百万 token）

模型	输入	输出	缓存读取	批量折扣
Claude Opus 4.6	$5.00	$25.00	$0.50（90% off）	50%
Claude Opus 4.6（>200K）	$5.00	$25.00	—	50%
GPT-5.3-Codex	$3.50	$28.00	—	50%
Gemini 3.1 Pro（≤200K）	$2.00	$12.00	$0.20（90% off）	50%
Gemini 3.1 Pro（>200K）	$4.00	$18.00	$0.40	50%

注意两个容易踩的坑：

GPT-5.3 的输出价格比 Opus 还贵。$28 vs $25。很多人只看输入价便宜就选了 GPT-5.3，结果输出密集的任务（比如代码生成）账单反而更高。
Gemini 过 200K 之后涨价。输入翻倍到 $4，输出涨到 $18。如果你确实要用 1M 上下文，记得按 >200K 的价格算。

场景成本测算

拿三个典型开发场景算单次调用成本：

场景一：代码审查（200 行 Python，约 3000 输入 token）

模型	配置	推理 token	输出 token	单次成本
Opus 4.6	effort: medium	~2,000	~800	$0.085
Opus 4.6	effort: high	~5,000	~1,500	$0.178
GPT-5.3-Codex	默认	—	~1,200	$0.045
Gemini 3.1 Pro	MEDIUM	~8,000	~800	$0.112
Gemini 3.1 Pro	LOW	~300	~400	$0.014

GPT-5.3 在这个场景下最便宜，因为它没有单独的推理 token 开销。Gemini LOW 档也很便宜，但质量会打折扣。Opus medium 和 Gemini MEDIUM 成本接近。

场景二：脚本生成（写一个 100 行的自动化脚本）

模型	配置	推理 token	输出 token	单次成本
Opus 4.6	effort: high	~8,000	~2,000	$0.255
GPT-5.3-Codex	默认	—	~2,500	$0.074
Gemini 3.1 Pro	MEDIUM	~10,000	~2,000	$0.146

GPT-5.3 在代码生成场景上成本优势明显，约为 Opus 的 30%。

场景三：长文档检索（50 万 token 输入，问一个问题）

模型	配置	输入成本	推理 token	输出成本	总成本
Opus 4.6	effort: medium, 1M Beta	$2.50	~3,000 → $0.075	~500 → $0.013	$2.59
GPT-5.3-Codex	—	不可用（窗口不够）	—	—	—
Gemini 3.1 Pro	MEDIUM, >200K	$2.00	~8,000 → $0.144	~500 → $0.009	$2.15

GPT-5.3 直接出局，窗口不够。Gemini 比 Opus 便宜约 17%，而且不需要 Tier 4 Beta。

月度预算估算

假设一个 5 人团队，日均每人 30 万输入 + 8 万输出 token，每月 22 个工作日：

方案	月成本
全 Opus 4.6 (high)	$2,530
全 GPT-5.3-Codex	$1,388
全 Gemini 3.1 Pro (MEDIUM)	$792
混合方案	~$960

混合方案的分配：Opus 占 10%（架构决策）、GPT-5.3 占 30%（脚本和自动化）、Gemini 占 60%（日常审查和文档检索）。

跑分对比

编码能力

Benchmark	Opus 4.6	GPT-5.3-Codex	Gemini 3.1 Pro
SWE-bench Verified	80.8%	78.2%	80.6%
Terminal-Bench 2.0	65.4%	77.3%	—
LiveCodeBench Pro Elo	—	—	2,887
OSWorld-Verified	—	64.7%	—
SWE-Lancer IC Diamond	—	81.4%	—

SWE-bench 三家几乎打平。Terminal-Bench 是 GPT-5.3 的主场，领先 Opus 12 个百分点。

推理能力

Benchmark	Opus 4.6	GPT-5.3-Codex	Gemini 3.1 Pro
AIME 2025	92.8%	100%	91.2%
GPQA Diamond	91.3%	73.8%	94.3%
ARC-AGI-2	68.8%	—	77.1%
MMLU Pro	85.1%	—	—

GPQA Diamond 上 Gemini 领先 Opus 3 个百分点，比 GPT-5.3 高了 20 个百分点。ARC-AGI-2 Gemini 也领先。但 GDPval-AA（专家盲评偏好）Opus 的 1,606 Elo 远超 Gemini 的 1,317。跑分高不等于专家更满意。

安全相关

Benchmark	Opus 4.6	GPT-5.3-Codex	Gemini 3.1 Pro
网络安全 CTF	—	77.6%	—

GPT-5.3 在安全基准上得分很高，OpenAI 为此配了 $10M 的网络防御信用。如果你做安全相关的工具，这个数字值得关注。

实际任务表现

跑分只是参考。我在真实项目里用了一周，记录了三个典型场景的对比。

复杂重构

给三个模型同一段 500 行的耦合代码，要求拆分成独立模块。

Opus 4.6 (high)：先输出依赖分析，标注风险点，然后分 4 步重构。每步代码可以独立编译验证。最终产出约 600 行，拆成 5 个文件。我改了两处类型声明就合了 PR。耗时约 25 秒。

GPT-5.3-Codex：8 秒出结果。拆了 3 个文件，但把排序和筛选逻辑合在了一起，有两个边界条件没处理。指出来之后修了一版，又花了 6 秒。总体可用，但需要人工校验。

Gemini 3.1 Pro (MEDIUM)：12 秒出结果。拆分方案合理，4 个文件。有一处多余的 useEffect 状态同步，其他都 OK。考虑到价格，性价比最高。

结论：准确率要求极高选 Opus，日常重构 Gemini MEDIUM 够用。

自动化脚本

需求：从 5 个不同格式的 API 拉数据，清洗后存数据库。

GPT-5.3-Codex（Codex App 内）：写完脚本后自己执行，发现某个 API 返回格式跟文档不一致，自动加了异常处理，再跑一遍通了。全程无需干预。

Opus 4.6：给了一个质量很高的脚本，但不会自己执行。需要你手动跑、看报错、再贴回去让它改。

Gemini 3.1 Pro：脚本能用，但异常处理没有 GPT-5.3 全面。也不会自己跑。

结论：自动化和脚本任务选 GPT-5.3，它的 Agent 执行能力是另外两家没有的。

大型代码库检索

把一个 30 文件的 monorepo（约 40 万 token）灌进去，问"哪些地方调用了支付接口但没做异常处理"。

Gemini 3.1 Pro (MEDIUM)：9 秒返回，列出了 7 处调用，全部正确。成本约 $2.15。

Opus 4.6 (medium, 1M Beta)：14 秒返回，同样找到 7 处，多给了一段风险分析。成本约 $2.59。

GPT-5.3-Codex：400K 窗口装不下。裁剪到 250K 后能跑，但漏了 2 处（被裁掉的文件里有调用）。

结论：大上下文检索选 Gemini。Opus 质量类似但贵 20%，GPT-5.3 窗口不够。

已知问题

三个模型各自的坑，在项目里踩过或社区里确认过的。

Opus 4.6

Overthinking。默认 high effort 下，简单问题也可能产生上万推理 token。建议日常任务用 medium。
1M Beta 不稳定。超过 500K token 后偶尔截断。稳定使用建议控制在 200K 以内。
价格不含惊喜。输出 $25/M 是三者中仅次于 GPT-5.3 的，推理密集任务账单容易超预期。

GPT-5.3-Codex

太"自信"。在 Codex App 里它会直接改文件、跑命令。有用户反馈它跑了 DROP TABLE 然后重建。生产环境一定要加确认层。
上下文窗口短板。400K 看着不小，减去 128K 输出保留，实际只有 272K 给输入。大型项目可能不够用。
没有推理控制。不像 Opus 和 Gemini 能调 effort / thinking_level，GPT-5.3 的推理行为完全由模型决定。遇到"想太多"或"想太少"的情况没有旋钮可调。

Gemini 3.1 Pro

输出上限偏低。16K-64K vs 其他两家的 128K。生成大文件需要分段。
工具调用兼容性。LangChain4j、n8n、Cursor、Vercel AI SDK 里的 function calling 都有不同程度的 bug。上生产前先在测试环境验证。
配额和锁号。AI Pro 订阅用户通过 Google 账号登录使用 Gemini CLI 时，可能被锁 90-99 小时。API Key 用户不受影响。
Preview 状态。模型权重可能随时更新，没有正式的 SLA 保障。

选型策略

策略一：单模型方案

预算充足、质量优先 → Opus 4.6（effort: medium 日常，high 重要任务）

预算有限、量大活杂 → Gemini 3.1 Pro（thinking_level: MEDIUM 日常，HIGH 难题）

重自动化、终端操作多 → GPT-5.3-Codex

策略二：混合路由

更推荐的做法。在 API Gateway 层做路由：

def route_model(task_type: str, input_tokens: int) -> dict:
    if task_type in ["architecture", "security_audit", "complex_refactor"]:
        return {"model": "claude-opus-4-6", "effort": "high"}
    
    if task_type in ["script", "ci_cd", "devops", "terminal"]:
        return {"model": "gpt-5.3-codex"}
    
    if input_tokens > 300_000:
        return {"model": "gemini-3.1-pro-preview", "thinking_level": "MEDIUM"}
    
    # 默认走 Gemini，成本最低
    return {"model": "gemini-3.1-pro-preview", "thinking_level": "MEDIUM"}

这个路由逻辑的思路：高价值决策用 Opus（贵但准），执行类任务用 GPT-5.3（快且自主），其他全部走 Gemini（便宜够用）。

策略三：降级链

主模型不可用时自动切换：

Opus 4.6 → Gemini 3.1 Pro HIGH → Gemini 3.1 Pro MEDIUM
GPT-5.3  → Gemini 3.1 Pro MEDIUM
Gemini   → Opus 4.6 medium（成本高但稳定）

三个模型分布在三个不同的云平台（Anthropic / OpenAI / Google），同时挂的概率很低。互为备份在 SLA 层面有实际意义。

监控建议

接了多模型之后，建议盯这几个指标：

按模型分组的 token 消耗。确保路由逻辑生效，Opus 不要承担了 60% 的流量。
按模型的 P95 延迟。Opus high 的 P95 通常在 20-30 秒，GPT-5.3 在 5-10 秒，Gemini MEDIUM 在 8-15 秒。偏离这些范围说明有问题。
输出截断率（stop_reason: max_tokens 的比例）。Gemini 因为最大输出小，截断风险更高。
单次请求成本分布。如果出现单次 $5+ 的请求，大概率是 Opus max 或 Gemini HIGH 处理了一个超大上下文，检查一下路由是否合理。

三个模型的差异不是"谁更强"，而是"强在哪"。Opus 强在想得深，GPT-5.3 强在干得快，Gemini 强在花得少。混着用，按任务路由，是当前阶段最划算的做法。

posted @ 2026-02-26 15:38 147API 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

Opus 4.6、GPT-5.3-Codex、Gemini 3.1 Pro 三个模型的 API 怎么选？

核心参数

API 接入

Claude Opus 4.6

GPT-5.3-Codex

Gemini 3.1 Pro

统一接口调用

定价对比

标准 API 价格（每百万 token）

场景成本测算

月度预算估算

跑分对比

编码能力

推理能力

安全相关

实际任务表现

复杂重构

自动化脚本

大型代码库检索

已知问题

Opus 4.6

GPT-5.3-Codex

Gemini 3.1 Pro

选型策略

策略一：单模型方案

策略二：混合路由

策略三：降级链

监控建议

公告