刚刚，Claude Opus 4.6 和 GPT-5.3-Codex 同时炸场！AI 编程要变天了

大家好，我是程序员鱼皮。

今天凌晨，AI 圈又双叒炸了。Anthropic 和 OpenAI 几乎同时发布了自家的最新大模型 —— Claude Opus 4.6 和 GPT-5.3-Codex，中门对狙，火药味十足。

这次两家是真往编程和实际工作能力上卷了，不是那种 “跑分升了 2 个点” 就发篇博客的敷衍更新。

下面我带大家快速了解一下，这两个模型到底更新了什么？对我们程序员和 AI 玩家来说有什么用？

Claude Opus 4.6：更聪明、更能干、更持久

先说 Anthropic 这边。Claude Opus 4.6 是目前 Claude 家族最强的模型，之前用 Claude Opus 4.5 编程就已经让我感觉 “AI 写代码无所不能” 了，而这次的 Opus 4.6 在多项评估中均处于最先进水平，包括智能编码、多学科推理、知识工作和智能搜索等。

光看这个跑分我就贼激动了！

实际上手后，我最直观的感受就是：干活更靠谱了。

具体更新了这些：

1）编程能力大幅提升：Opus 4.6 能更好地在大型代码库中工作，调试和代码审查能力增强，写完代码还能自己检查错误。

我实测了一波，让之前的 Opus 4.5 和新出的 Opus 4.6 同时开发一个「聚合搜索引擎」项目：

请你帮我开发一个聚合搜索网站，包含完整的前端和后端，能够同时从多个不同的搜索引擎搜索和聚合结果。
应该先做 MVP 最小可行产品，整个过程不需要向我确认、不需要我提供 API Key，你必须确保功能正常可用。

几分钟后，二者都完成了任务：

但是对比一下实际搜索效果，Opus 4.5 完败，看到这我就放心了，以后我用 AI 编程估计 Bug 更少了~

2）100 万 token 上下文窗口。Opus 系列第一次支持这么长的上下文，简单来说就是你可以一次性给它丢一大堆文件和代码，它都能记住并理解，不会像以前那样聊着聊着就失忆了。

这也是我最最最期待的特性，复杂的前后端项目也可以在同一对话框中一把梭了！不用来来回回总结上下文和新开对话框。

赣，准备嘎嘎烧 Tokens 了。

3）128k 输出 token。输出长度翻倍，意味着 Claude 可以一次性生成更长的代码和文档，不用再拆成好几次请求了。

4）自适应思考。以前开发者只能手选开启或关闭深度推理，现在 Claude 会自动判断这个问题需不需要深度思考。简单问题秒回，复杂问题慢慢想，智能调节，省时省钱。

5）上下文压缩。以前跑长任务的时候，AI 经常会撞到上下文长度的天花板。现在 Claude 能自动压缩和总结之前的对话内容，让长时间运行的任务不会中途翻车。搭配 100 万 token 上下文，不敢想象有多持久！

6）Claude Code 支持多智能体协作。你可以同时启动多个 AI Agent 并行工作，比如让几个 Agent 同时审查代码库的不同部分，效率直接翻倍。

7）Claude in Excel 大升级。现在能处理更复杂的长时间任务，支持数据透视表、图表修改、条件格式、数据验证等，还能一次性处理多步骤操作。

8）Claude in PowerPoint 上线。能读取你已有的模板、字体和母版，保持品牌风格一致，然后直接帮你生成完整的 PPT。

大家对 Opus 4.6 也是一致好评，不少早期测试的公司都表示 “用了回不去”，Cursor 官方说 Opus 4.6 是他们内部长任务测试中的最强模型，Replit 说它的任务拆解和并行规划能力有了巨大飞跃。

再看 OpenAI 这边。这次发布的 GPT-5.3-Codex，剑指 最强编程 Agent，而且不只是写代码，还能像你的同事一样边干活边和你沟通。

相比 Claude 官方连发好几个帖子介绍自家新模型，OpenAI 官方这边则低调不少。Sam Altman 亲自在 X 上喊话：

来看看具体有什么：

1）编程跑分全面领先。SWE-Bench Pro 57% 和 TerminalBench 2.0 77%，编程相关基准都创了新高。尤其是 OSWorld（测试 AI 在真实桌面环境中完成任务的能力）直接从上一代的 38.2% 飙到 64.7%，这个提升幅度相当炸裂。

2）速度更快、更省钱。完成同样的任务，token 消耗量不到上一代（5.2-Codex）的一半，而且每个 token 处理速度还快了 25%。又快又省，这才是实实在在的体验提升。

3）边干活边汇报。以前你丢一个任务给 AI，只能干等结果。现在 GPT-5.3-Codex 会在工作过程中实时告诉你它在做什么、做到哪了，你随时可以插嘴调整方向，就像真的在和一个同事协作一样。

4）超强的前端开发能力。官方直接展示了让它做赛车游戏和潜水游戏的效果，完整度高得离谱，有多个地图、道具系统和完整的游戏逻辑。

生成普通网页时 AI 也更懂你的意图了，默认就能给你做出功能更丰富、设计更合理的页面。

5）电脑操作能力增强。不只是写代码，它还能像人一样操作电脑完成各种任务，比如做 PPT、分析数据、处理表格，把编程 Agent 的边界扩展到了全能打工 Agent。

6）自己训练自己。OpenAI 团队说 GPT-5.3-Codex 是第一个 参与了自身创造 的模型。团队用它的早期版本来调试训练过程、管理部署、分析测试结果。也就是说，AI 在加速 AI 自身的进化，以后的进化速度肯定会越来越快。

7）网络安全能力大幅增强。这是第一个被 OpenAI 归类为高能力网络安全模型的版本，能主动发现代码漏洞。OpenAI 同时承诺投入 1000 万美元 API 额度支持网络防御研究。

这次两家巨头同时发布新模型，互相贴脸开大，对我们用户来说是好事。可以看到，这两个模型都在往 实用方向 猛卷，是真的想让你日常工作中用得上。

这两个大模型应该如何选择呢？

简单对比一下：

不过我估计网络和价格就已经劝退一大波国内用户了，如果你只是日常学习、或者做做工具类小项目，也不必盲目追求国外的大模型。很快 DeepSeek V4 等一系列国产大模型应该就要出来了，期待一波~