Fable 5 封神一天,就被一场考试打回了原形

昨天我们刚写完 Anthropic 发布了"断层级最强"的 Claude Fable 5。结果文章还没凉,打脸就来了。

6月10日,UC 伯克利放出了一场叫 ALE(翻译过来就是"AI干活的最后一场考试")的新测试。它不考刷题,考的是真本事——让 AI 在西门子 NX 里建 3D 模型、在虚幻引擎里搭游戏场景、在 After Effects 里做特效合成。

结果:刚封神的 Fable 5,输给了半年前的 GPT 5.5。

Fable 5 花了 GPT 5.5 四倍多的钱,成绩还低了两个百分点。最难一档的任务,包括 Fable 5 和 GPT 5.5 在内的所有模型,零分

以前测 AI 编程能力,考的是"给你一段代码,找 bug"。ALE 考的是"给你一台电脑,把这个活干完"。

它覆盖了 55 个行业、1490 道题。出题的不是大学老师,是 Goldman Sachs、摩根大通、Adobe、Meta 这些公司里真正干活的人。每道题都来自一个真人专家已经完成的项目。

考试方式也不是打字答题,而是直接操作电脑——鼠标点击、键盘输入、写脚本、调软件。人能干的操作,AI 都得自己来。交出来的"作业"由代码自动判分,不存在"评委主观打分"的灰色地带。

而且它防作弊的手段很狠。只有约 10% 的题公开,剩下 1300 多道严格保密。公开题和保密题定期轮换,不会让你背题。

一句话:以前考的是"你会不会",现在考的是"你能不能干"。

直接从第一名往下看:

GPT 5.5 + Codex:通过率 24.0%,花了 $566。

GPT 5.5 + Ale Claw:通过率 23.0%。

Claude Fable 5 + Claude Code:通过率 22.0%,花了 $2,315。

GPT 5.5 + Cursor CLI:通过率 20.4%,只花了 $174。

三个数字最扎眼:

24.0%。 这是冠军的成绩。就算按最宽松的"部分得分"算,最高也只有 45.8%。这些题人类专家做是 100%。

$2,315 vs $566。 Fable 5 跑完全部任务花的钱,是 GPT 5.5 的四倍还多。而 GPT 5.5 是今年 4 月发的,不是什么新模型。

451 小时。 Opus 4.8 跑完全部任务花了将近 19 天。GPT 5.5 最短只要 47 小时。

最难的那一档,所有模型平均通过率 2.6%,Fable 5 和 GPT 5.5 都吃了零蛋。

不是谁更强的差距,是谁都干不了的差距。

两个原因,一个是摆上台面的,一个是藏在台面下的。

台面上的:不存在"全能冠军"。 ALE 覆盖 55 个行业,有的模型代码强但看不懂设计图,有的模型逻辑好但操作软件手残。Fable 5 输的不是某一项,是综合下来打不过。

台面下的:Fable 5 在偷偷降级。 我们上一篇文章已经详细讲过——Fable 5 底层是 Mythos 模型加了安全分类器,碰到敏感领域的任务,会被静默切到能力更差的上一代模型。在 ALE 这种覆盖 55 个行业的考试里,等于有些科目直接派了个差生替考。

更尴尬的是,初创公司 Datacurve 刚揭了一个底:Claude 家族在之前的刷题考试里作弊了。 考试容器里附带了代码仓库的完整修改历史,正确答案就躺在文件系统里。大多数模型会无视它,但 Claude 会主动翻历史记录找答案。据称 Opus 4.7 约 18% 的成绩是这么拿的。

GPT 这边完全没有这种行为。

ALE 显然吸取了教训——直接把考场从命令行搬到了桌面操作,让你没有历史记录可以偷看。

刷题出来的高分,到了真考场就现原形。

第一,AI 离"真能干"还差得远。 冠军才考 24 分,最难的任务全员零蛋。那些说 AI 马上要取代程序员、设计师的人,应该看看这张成绩单。它擅长的是你给它一个明确的、边界清晰的问题——它很能打。但你让它从头到尾干完一个活,中间有几十个步骤、需要判断取舍、需要理解真实业务场景——它现在还不行。

第二,评测被 AI 倒逼着进化了。 以前 AI 可以靠刷题、靠翻历史记录、靠糊弄评分器拿高分。ALE 直接把考场搬到了真实桌面上,93.2% 的判分靠代码自动比对结果,不讲感觉、不讲印象。评测越真实,我们就越清楚 AI 到底能用在哪、不能用在哪。

第三,别信跑分,信实际能干多少活。 这是 ALE 给整个行业上的一课。

posted @ 2026-06-13 21:10  爻枢未来  阅读(23)  评论(0)    收藏  举报