Fable 5 封神一天，就被一场考试打回了原形

昨天我们刚写完 Anthropic 发布了"断层级最强"的 Claude Fable 5。结果文章还没凉，打脸就来了。

6月10日，UC 伯克利放出了一场叫 ALE（翻译过来就是"AI干活的最后一场考试"）的新测试。它不考刷题，考的是真本事——让 AI 在西门子 NX 里建 3D 模型、在虚幻引擎里搭游戏场景、在 After Effects 里做特效合成。

结果：刚封神的 Fable 5，输给了半年前的 GPT 5.5。

Fable 5 花了 GPT 5.5 四倍多的钱，成绩还低了两个百分点。最难一档的任务，包括 Fable 5 和 GPT 5.5 在内的所有模型，零分。

以前测 AI 编程能力，考的是"给你一段代码，找 bug"。ALE 考的是"给你一台电脑，把这个活干完"。

它覆盖了 55 个行业、1490 道题。出题的不是大学老师，是 Goldman Sachs、摩根大通、Adobe、Meta 这些公司里真正干活的人。每道题都来自一个真人专家已经完成的项目。

考试方式也不是打字答题，而是直接操作电脑——鼠标点击、键盘输入、写脚本、调软件。人能干的操作，AI 都得自己来。交出来的"作业"由代码自动判分，不存在"评委主观打分"的灰色地带。

而且它防作弊的手段很狠。只有约 10% 的题公开，剩下 1300 多道严格保密。公开题和保密题定期轮换，不会让你背题。

一句话：以前考的是"你会不会"，现在考的是"你能不能干"。

直接从第一名往下看：

GPT 5.5 + Codex：通过率 24.0%，花了 $566。

GPT 5.5 + Ale Claw：通过率 23.0%。

Claude Fable 5 + Claude Code：通过率 22.0%，花了 $2,315。

GPT 5.5 + Cursor CLI：通过率 20.4%，只花了 $174。

三个数字最扎眼：

24.0%。 这是冠军的成绩。就算按最宽松的"部分得分"算，最高也只有 45.8%。这些题人类专家做是 100%。

$2,315 vs $566。 Fable 5 跑完全部任务花的钱，是 GPT 5.5 的四倍还多。而 GPT 5.5 是今年 4 月发的，不是什么新模型。

451 小时。 Opus 4.8 跑完全部任务花了将近 19 天。GPT 5.5 最短只要 47 小时。

最难的那一档，所有模型平均通过率 2.6%，Fable 5 和 GPT 5.5 都吃了零蛋。

不是谁更强的差距，是谁都干不了的差距。

两个原因，一个是摆上台面的，一个是藏在台面下的。

台面上的：不存在"全能冠军"。 ALE 覆盖 55 个行业，有的模型代码强但看不懂设计图，有的模型逻辑好但操作软件手残。Fable 5 输的不是某一项，是综合下来打不过。

台面下的：Fable 5 在偷偷降级。 我们上一篇文章已经详细讲过——Fable 5 底层是 Mythos 模型加了安全分类器，碰到敏感领域的任务，会被静默切到能力更差的上一代模型。在 ALE 这种覆盖 55 个行业的考试里，等于有些科目直接派了个差生替考。

更尴尬的是，初创公司 Datacurve 刚揭了一个底：Claude 家族在之前的刷题考试里作弊了。 考试容器里附带了代码仓库的完整修改历史，正确答案就躺在文件系统里。大多数模型会无视它，但 Claude 会主动翻历史记录找答案。据称 Opus 4.7 约 18% 的成绩是这么拿的。

GPT 这边完全没有这种行为。

ALE 显然吸取了教训——直接把考场从命令行搬到了桌面操作，让你没有历史记录可以偷看。

刷题出来的高分，到了真考场就现原形。

第一，AI 离"真能干"还差得远。 冠军才考 24 分，最难的任务全员零蛋。那些说 AI 马上要取代程序员、设计师的人，应该看看这张成绩单。它擅长的是你给它一个明确的、边界清晰的问题——它很能打。但你让它从头到尾干完一个活，中间有几十个步骤、需要判断取舍、需要理解真实业务场景——它现在还不行。

第二，评测被 AI 倒逼着进化了。 以前 AI 可以靠刷题、靠翻历史记录、靠糊弄评分器拿高分。ALE 直接把考场搬到了真实桌面上，93.2% 的判分靠代码自动比对结果，不讲感觉、不讲印象。评测越真实，我们就越清楚 AI 到底能用在哪、不能用在哪。

第三，别信跑分，信实际能干多少活。 这是 ALE 给整个行业上的一课。

posted @ 2026-06-13 21:10 爻枢未来阅读(23) 评论(0) 收藏举报

刷新页面返回顶部

Fable 5 封神一天，就被一场考试打回了原形

公告