刚刚,Claude Opus 4.6 和 GPT-5.3-Codex 同时炸场!AI 编程要变天了

大家好,我是程序员鱼皮。

今天凌晨,AI 圈又双叒炸了。Anthropic 和 OpenAI 几乎同时发布了自家的最新大模型 —— Claude Opus 4.6 和 GPT-5.3-Codex,中门对狙,火药味十足。

这次两家是真往编程和实际工作能力上卷了,不是那种 “跑分升了 2 个点” 就发篇博客的敷衍更新。

下面我带大家快速了解一下,这两个模型到底更新了什么?对我们程序员和 AI 玩家来说有什么用?

 

Claude Opus 4.6:更聪明、更能干、更持久

先说 Anthropic 这边。Claude Opus 4.6 是目前 Claude 家族最强的模型,之前用 Claude Opus 4.5 编程就已经让我感觉 “AI 写代码无所不能” 了,而这次的 Opus 4.6 在多项评估中均处于最先进水平,包括智能编码、多学科推理、知识工作和智能搜索等。

光看这个跑分我就贼激动了!

实际上手后,我最直观的感受就是:干活更靠谱了

具体更新了这些:

1)编程能力大幅提升:Opus 4.6 能更好地在大型代码库中工作,调试和代码审查能力增强,写完代码还能自己检查错误。

我实测了一波,让之前的 Opus 4.5 和新出的 Opus 4.6 同时开发一个「聚合搜索引擎」项目:

请你帮我开发一个聚合搜索网站,包含完整的前端和后端,能够同时从多个不同的搜索引擎搜索和聚合结果。
应该先做 MVP 最小可行产品,整个过程不需要向我确认、不需要我提供 API Key,你必须确保功能正常可用。

几分钟后,二者都完成了任务:

但是对比一下实际搜索效果,Opus 4.5 完败,看到这我就放心了,以后我用 AI 编程估计 Bug 更少了~

2)100 万 token 上下文窗口。Opus 系列第一次支持这么长的上下文,简单来说就是你可以一次性给它丢一大堆文件和代码,它都能记住并理解,不会像以前那样聊着聊着就失忆了。

这也是我最最最期待的特性,复杂的前后端项目也可以在同一对话框中一把梭了!不用来来回回总结上下文和新开对话框。

赣,准备嘎嘎烧 Tokens 了。

3)128k 输出 token。输出长度翻倍,意味着 Claude 可以一次性生成更长的代码和文档,不用再拆成好几次请求了。

4)自适应思考。以前开发者只能手选开启或关闭深度推理,现在 Claude 会自动判断这个问题需不需要深度思考。简单问题秒回,复杂问题慢慢想,智能调节,省时省钱。

5)上下文压缩。以前跑长任务的时候,AI 经常会撞到上下文长度的天花板。现在 Claude 能自动压缩和总结之前的对话内容,让长时间运行的任务不会中途翻车。搭配 100 万 token 上下文,不敢想象有多持久!

6)Claude Code 支持多智能体协作。你可以同时启动多个 AI Agent 并行工作,比如让几个 Agent 同时审查代码库的不同部分,效率直接翻倍。

7)Claude in Excel 大升级。现在能处理更复杂的长时间任务,支持数据透视表、图表修改、条件格式、数据验证等,还能一次性处理多步骤操作。

8)Claude in PowerPoint 上线。能读取你已有的模板、字体和母版,保持品牌风格一致,然后直接帮你生成完整的 PPT。

大家对 Opus 4.6 也是一致好评,不少早期测试的公司都表示 “用了回不去”,Cursor 官方说 Opus 4.6 是他们内部长任务测试中的最强模型,Replit 说它的任务拆解和并行规划能力有了巨大飞跃。

 

GPT-5.3-Codex:OpenAI 的编程杀手锏

再看 OpenAI 这边。这次发布的 GPT-5.3-Codex,剑指 最强编程 Agent,而且不只是写代码,还能像你的同事一样边干活边和你沟通。

相比 Claude 官方连发好几个帖子介绍自家新模型,OpenAI 官方这边则低调不少。Sam Altman 亲自在 X 上喊话:

来看看具体有什么:

1)编程跑分全面领先。SWE-Bench Pro 57% 和 TerminalBench 2.0 77%,编程相关基准都创了新高。尤其是 OSWorld(测试 AI 在真实桌面环境中完成任务的能力)直接从上一代的 38.2% 飙到 64.7%,这个提升幅度相当炸裂。

2)速度更快、更省钱。完成同样的任务,token 消耗量不到上一代(5.2-Codex)的一半,而且每个 token 处理速度还快了 25%。又快又省,这才是实实在在的体验提升。

3)边干活边汇报。以前你丢一个任务给 AI,只能干等结果。现在 GPT-5.3-Codex 会在工作过程中实时告诉你它在做什么、做到哪了,你随时可以插嘴调整方向,就像真的在和一个同事协作一样。

4)超强的前端开发能力。官方直接展示了让它做赛车游戏和潜水游戏的效果,完整度高得离谱,有多个地图、道具系统和完整的游戏逻辑。

生成普通网页时 AI 也更懂你的意图了,默认就能给你做出功能更丰富、设计更合理的页面。

5)电脑操作能力增强。不只是写代码,它还能像人一样操作电脑完成各种任务,比如做 PPT、分析数据、处理表格,把编程 Agent 的边界扩展到了全能打工 Agent。

6)自己训练自己。OpenAI 团队说 GPT-5.3-Codex 是第一个 参与了自身创造 的模型。团队用它的早期版本来调试训练过程、管理部署、分析测试结果。也就是说,AI 在加速 AI 自身的进化,以后的进化速度肯定会越来越快。

7)网络安全能力大幅增强。这是第一个被 OpenAI 归类为高能力网络安全模型的版本,能主动发现代码漏洞。OpenAI 同时承诺投入 1000 万美元 API 额度支持网络防御研究。

 

我的看法

这次两家巨头同时发布新模型,互相贴脸开大,对我们用户来说是好事。可以看到,这两个模型都在往 实用方向 猛卷,是真的想让你日常工作中用得上。

这两个大模型应该如何选择呢?

简单对比一下:

  • Claude Opus 4.6 是六边形战士,编程、办公、研究样样行,特别是在 Excel、PowerPoint 这些办公场景里做了很深的整合。

  • GPT-5.3-Codex 把编程能力拉满,在代码生成、任务执行和人机协作上打出了差异化优势。

不过我估计网络和价格就已经劝退一大波国内用户了,如果你只是日常学习、或者做做工具类小项目,也不必盲目追求国外的大模型。很快 DeepSeek V4 等一系列国产大模型应该就要出来了,期待一波~

 

更多编程学习资源

posted @ 2026-02-06 10:40  程序员鱼皮  阅读(226)  评论(1)    收藏  举报