Opus 4.6、GPT-5.3-Codex、Gemini 3.1 Pro 三个模型的 API 怎么选?

2 月份三家同时出牌。Anthropic 发了 Opus 4.6,OpenAI 发了 GPT-5.3-Codex,Google 发了 Gemini 3.1 Pro。

之前分别写过 Opus 4.6 的 effort 参数分档Gemini 3.1 Pro 的 thinking_level 选择,单个模型的用法已经聊过了。这篇做一件事:把三个模型放在一起,从 API 接入、定价、跑分和实际任务表现四个维度做横向对比,帮你决定项目里该接哪个。

核心参数

维度 Claude Opus 4.6 GPT-5.3-Codex Gemini 3.1 Pro
发布日期 2026-02-05 2026-02-05 2026-02-19
上下文窗口 200K(1M Beta, Tier 4+) 400K(输入可用 ~272K) 1M
最大输出 128K tokens 128K tokens 16K-64K tokens
思考控制 effort: low/medium/high/max 无独立思考参数 thinking_level: LOW/MEDIUM/HIGH
多模态 文本 + 图像 文本 + 图像 文本 + 图像 + 视频 + 音频
推理速度 基准 比 5.2 快 25% 基准

三个关键差异:

  1. 上下文窗口。Gemini 的 1M 是默认可用的,Opus 的 1M 要 Tier 4 Beta 才能申请,GPT-5.3 只有 400K。如果你的应用需要塞入大型代码库或长文档,这直接决定了选择范围。

  2. 思考控制。Opus 和 Gemini 都能控制推理深度,GPT-5.3 不行。Opus 的 effort 影响思考 token、输出 token 和工具调用三者;Gemini 的 thinking_level 主要影响推理 token 预算。GPT-5.3 的推理行为由模型自己决定,开发者没有旋钮可调。

  3. 最大输出。Opus 和 GPT-5.3 都能输出 128K token,Gemini 上限 64K。如果你需要一次性生成大文件(比如完整的测试套件),Gemini 可能要分段。

API 接入

三家的 SDK 调用方式。

Claude Opus 4.6

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=8192,
    thinking={"type": "adaptive"},
    output_config={"effort": "high"},
    messages=[
        {"role": "user", "content": "重构这段代码,拆分成独立的模块"}
    ]
)

# 查看思考 token 消耗
print(f"输入: {response.usage.input_tokens}")
print(f"输出: {response.usage.output_tokens}")
# thinking token 在 usage 里有单独字段

effort 参数的详细用法我在 上一篇 写过。核心要点:默认是 high,大部分日常任务用 medium 就够了,能省 50% 左右的 token。

GPT-5.3-Codex

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.3-codex",
    messages=[
        {"role": "system", "content": "你是一个 DevOps 专家"},
        {"role": "user", "content": "写一个监控 Nginx 502 错误率的脚本,超过阈值自动重启"}
    ],
    max_tokens=4096,
)

print(response.choices[0].message.content)
print(f"输入: {response.usage.prompt_tokens}")
print(f"输出: {response.usage.completion_tokens}")

GPT-5.3 没有 effort 之类的参数。它的 Agent 行为在 Codex App 和 CLI 里是自动的(自己跑代码、读错误、修改重试),API 层面它就是一个常规的 chat completion 接口。

Gemini 3.1 Pro

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="分析这段代码的安全漏洞",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
            thinking_level="MEDIUM"
        )
    ),
)

print(response.text)
print(f"推理 token: {response.usage_metadata.thoughts_token_count}")
print(f"输出 token: {response.usage_metadata.candidates_token_count}")

thinking_level 的详细说明见 Gemini 3.1 Pro 上手笔记。默认是 HIGH,记得手动改成 MEDIUM,否则每次请求都会触发 Deep Think Mini,推理 token 爆涨。

统一接口调用

如果你不想维护三套 SDK,可以通过 OpenAI 兼容格式统一调用。Gemini 和 Claude 都支持:

from openai import OpenAI

# Gemini
gemini_client = OpenAI(
    api_key="GEMINI_KEY",
    base_url="https://generativelanguage.googleapis.com/v1beta/openai/"
)

# Claude (通过 Anthropic 的 OpenAI 兼容端点或第三方网关)
# 具体 base_url 取决于你用的代理

# GPT-5.3 (原生)
openai_client = OpenAI()

好处是上层代码可以用同一个接口做路由切换。坏处是会丢掉一些模型特有的参数(比如 Opus 的 effort、Gemini 的 thinking_level)。如果你需要精细控制,还是建议各用各的 SDK。

定价对比

标准 API 价格(每百万 token)

模型 输入 输出 缓存读取 批量折扣
Claude Opus 4.6 $5.00 $25.00 $0.50(90% off) 50%
Claude Opus 4.6(>200K) $5.00 $25.00 50%
GPT-5.3-Codex $3.50 $28.00 50%
Gemini 3.1 Pro(≤200K) $2.00 $12.00 $0.20(90% off) 50%
Gemini 3.1 Pro(>200K) $4.00 $18.00 $0.40 50%

注意两个容易踩的坑:

  1. GPT-5.3 的输出价格比 Opus 还贵。$28 vs $25。很多人只看输入价便宜就选了 GPT-5.3,结果输出密集的任务(比如代码生成)账单反而更高。

  2. Gemini 过 200K 之后涨价。输入翻倍到 $4,输出涨到 $18。如果你确实要用 1M 上下文,记得按 >200K 的价格算。

场景成本测算

拿三个典型开发场景算单次调用成本:

场景一:代码审查(200 行 Python,约 3000 输入 token)

模型 配置 推理 token 输出 token 单次成本
Opus 4.6 effort: medium ~2,000 ~800 $0.085
Opus 4.6 effort: high ~5,000 ~1,500 $0.178
GPT-5.3-Codex 默认 ~1,200 $0.045
Gemini 3.1 Pro MEDIUM ~8,000 ~800 $0.112
Gemini 3.1 Pro LOW ~300 ~400 $0.014

GPT-5.3 在这个场景下最便宜,因为它没有单独的推理 token 开销。Gemini LOW 档也很便宜,但质量会打折扣。Opus medium 和 Gemini MEDIUM 成本接近。

场景二:脚本生成(写一个 100 行的自动化脚本)

模型 配置 推理 token 输出 token 单次成本
Opus 4.6 effort: high ~8,000 ~2,000 $0.255
GPT-5.3-Codex 默认 ~2,500 $0.074
Gemini 3.1 Pro MEDIUM ~10,000 ~2,000 $0.146

GPT-5.3 在代码生成场景上成本优势明显,约为 Opus 的 30%。

场景三:长文档检索(50 万 token 输入,问一个问题)

模型 配置 输入成本 推理 token 输出成本 总成本
Opus 4.6 effort: medium, 1M Beta $2.50 ~3,000 → $0.075 ~500 → $0.013 $2.59
GPT-5.3-Codex 不可用(窗口不够)
Gemini 3.1 Pro MEDIUM, >200K $2.00 ~8,000 → $0.144 ~500 → $0.009 $2.15

GPT-5.3 直接出局,窗口不够。Gemini 比 Opus 便宜约 17%,而且不需要 Tier 4 Beta。

月度预算估算

假设一个 5 人团队,日均每人 30 万输入 + 8 万输出 token,每月 22 个工作日:

方案 月成本
全 Opus 4.6 (high) $2,530
全 GPT-5.3-Codex $1,388
全 Gemini 3.1 Pro (MEDIUM) $792
混合方案 ~$960

混合方案的分配:Opus 占 10%(架构决策)、GPT-5.3 占 30%(脚本和自动化)、Gemini 占 60%(日常审查和文档检索)。

跑分对比

编码能力

Benchmark Opus 4.6 GPT-5.3-Codex Gemini 3.1 Pro
SWE-bench Verified 80.8% 78.2% 80.6%
Terminal-Bench 2.0 65.4% 77.3%
LiveCodeBench Pro Elo 2,887
OSWorld-Verified 64.7%
SWE-Lancer IC Diamond 81.4%

SWE-bench 三家几乎打平。Terminal-Bench 是 GPT-5.3 的主场,领先 Opus 12 个百分点。

推理能力

Benchmark Opus 4.6 GPT-5.3-Codex Gemini 3.1 Pro
AIME 2025 92.8% 100% 91.2%
GPQA Diamond 91.3% 73.8% 94.3%
ARC-AGI-2 68.8% 77.1%
MMLU Pro 85.1%

GPQA Diamond 上 Gemini 领先 Opus 3 个百分点,比 GPT-5.3 高了 20 个百分点。ARC-AGI-2 Gemini 也领先。但 GDPval-AA(专家盲评偏好)Opus 的 1,606 Elo 远超 Gemini 的 1,317。跑分高不等于专家更满意。

安全相关

Benchmark Opus 4.6 GPT-5.3-Codex Gemini 3.1 Pro
网络安全 CTF 77.6%

GPT-5.3 在安全基准上得分很高,OpenAI 为此配了 $10M 的网络防御信用。如果你做安全相关的工具,这个数字值得关注。

实际任务表现

跑分只是参考。我在真实项目里用了一周,记录了三个典型场景的对比。

复杂重构

给三个模型同一段 500 行的耦合代码,要求拆分成独立模块。

Opus 4.6 (high):先输出依赖分析,标注风险点,然后分 4 步重构。每步代码可以独立编译验证。最终产出约 600 行,拆成 5 个文件。我改了两处类型声明就合了 PR。耗时约 25 秒。

GPT-5.3-Codex:8 秒出结果。拆了 3 个文件,但把排序和筛选逻辑合在了一起,有两个边界条件没处理。指出来之后修了一版,又花了 6 秒。总体可用,但需要人工校验。

Gemini 3.1 Pro (MEDIUM):12 秒出结果。拆分方案合理,4 个文件。有一处多余的 useEffect 状态同步,其他都 OK。考虑到价格,性价比最高。

结论:准确率要求极高选 Opus,日常重构 Gemini MEDIUM 够用。

自动化脚本

需求:从 5 个不同格式的 API 拉数据,清洗后存数据库。

GPT-5.3-Codex(Codex App 内):写完脚本后自己执行,发现某个 API 返回格式跟文档不一致,自动加了异常处理,再跑一遍通了。全程无需干预。

Opus 4.6:给了一个质量很高的脚本,但不会自己执行。需要你手动跑、看报错、再贴回去让它改。

Gemini 3.1 Pro:脚本能用,但异常处理没有 GPT-5.3 全面。也不会自己跑。

结论:自动化和脚本任务选 GPT-5.3,它的 Agent 执行能力是另外两家没有的。

大型代码库检索

把一个 30 文件的 monorepo(约 40 万 token)灌进去,问"哪些地方调用了支付接口但没做异常处理"。

Gemini 3.1 Pro (MEDIUM):9 秒返回,列出了 7 处调用,全部正确。成本约 $2.15。

Opus 4.6 (medium, 1M Beta):14 秒返回,同样找到 7 处,多给了一段风险分析。成本约 $2.59。

GPT-5.3-Codex:400K 窗口装不下。裁剪到 250K 后能跑,但漏了 2 处(被裁掉的文件里有调用)。

结论:大上下文检索选 Gemini。Opus 质量类似但贵 20%,GPT-5.3 窗口不够。

已知问题

三个模型各自的坑,在项目里踩过或社区里确认过的。

Opus 4.6

  • Overthinking。默认 high effort 下,简单问题也可能产生上万推理 token。建议日常任务用 medium。
  • 1M Beta 不稳定。超过 500K token 后偶尔截断。稳定使用建议控制在 200K 以内。
  • 价格不含惊喜。输出 $25/M 是三者中仅次于 GPT-5.3 的,推理密集任务账单容易超预期。

GPT-5.3-Codex

  • 太"自信"。在 Codex App 里它会直接改文件、跑命令。有用户反馈它跑了 DROP TABLE 然后重建。生产环境一定要加确认层。
  • 上下文窗口短板。400K 看着不小,减去 128K 输出保留,实际只有 272K 给输入。大型项目可能不够用。
  • 没有推理控制。不像 Opus 和 Gemini 能调 effort / thinking_level,GPT-5.3 的推理行为完全由模型决定。遇到"想太多"或"想太少"的情况没有旋钮可调。

Gemini 3.1 Pro

  • 输出上限偏低。16K-64K vs 其他两家的 128K。生成大文件需要分段。
  • 工具调用兼容性。LangChain4j、n8n、Cursor、Vercel AI SDK 里的 function calling 都有不同程度的 bug。上生产前先在测试环境验证。
  • 配额和锁号。AI Pro 订阅用户通过 Google 账号登录使用 Gemini CLI 时,可能被锁 90-99 小时。API Key 用户不受影响。
  • Preview 状态。模型权重可能随时更新,没有正式的 SLA 保障。

选型策略

策略一:单模型方案

预算充足、质量优先 → Opus 4.6(effort: medium 日常,high 重要任务)

预算有限、量大活杂 → Gemini 3.1 Pro(thinking_level: MEDIUM 日常,HIGH 难题)

重自动化、终端操作多 → GPT-5.3-Codex

策略二:混合路由

更推荐的做法。在 API Gateway 层做路由:

def route_model(task_type: str, input_tokens: int) -> dict:
    if task_type in ["architecture", "security_audit", "complex_refactor"]:
        return {"model": "claude-opus-4-6", "effort": "high"}
    
    if task_type in ["script", "ci_cd", "devops", "terminal"]:
        return {"model": "gpt-5.3-codex"}
    
    if input_tokens > 300_000:
        return {"model": "gemini-3.1-pro-preview", "thinking_level": "MEDIUM"}
    
    # 默认走 Gemini,成本最低
    return {"model": "gemini-3.1-pro-preview", "thinking_level": "MEDIUM"}

这个路由逻辑的思路:高价值决策用 Opus(贵但准),执行类任务用 GPT-5.3(快且自主),其他全部走 Gemini(便宜够用)。

策略三:降级链

主模型不可用时自动切换:

Opus 4.6 → Gemini 3.1 Pro HIGH → Gemini 3.1 Pro MEDIUM
GPT-5.3  → Gemini 3.1 Pro MEDIUM
Gemini   → Opus 4.6 medium(成本高但稳定)

三个模型分布在三个不同的云平台(Anthropic / OpenAI / Google),同时挂的概率很低。互为备份在 SLA 层面有实际意义。

监控建议

接了多模型之后,建议盯这几个指标:

  1. 按模型分组的 token 消耗。确保路由逻辑生效,Opus 不要承担了 60% 的流量。
  2. 按模型的 P95 延迟。Opus high 的 P95 通常在 20-30 秒,GPT-5.3 在 5-10 秒,Gemini MEDIUM 在 8-15 秒。偏离这些范围说明有问题。
  3. 输出截断率(stop_reason: max_tokens 的比例)。Gemini 因为最大输出小,截断风险更高。
  4. 单次请求成本分布。如果出现单次 $5+ 的请求,大概率是 Opus max 或 Gemini HIGH 处理了一个超大上下文,检查一下路由是否合理。

三个模型的差异不是"谁更强",而是"强在哪"。Opus 强在想得深,GPT-5.3 强在干得快,Gemini 强在花得少。混着用,按任务路由,是当前阶段最划算的做法。

posted @ 2026-02-26 15:38  147API  阅读(0)  评论(0)    收藏  举报