Claude Opus 4.8登顶ARC-AGI-3:没给任何提示,AI自己学会了玩游戏

Claude Opus 4.8登顶ARC-AGI-3:没给任何提示,AI自己学会了玩游戏

ARC-AGI是衡量AI泛化能力的"地狱级"测试——它把模型扔进从没见过的谜题里,不给说明、不给提示,让AI自己摸索规则。

最新榜单上,Claude Opus 4.8(High)以1.5%得分登顶,是第二名(0.5%)的3倍,是GPT-5.5的近4倍。

但代价也不小

单次评测成本高达1万美元。这个分数虽然证明了能力的飞跃,但成本决定了它短期内无法大规模应用。

为什么这个测试重要?

ARC-AGI测试的本质是"AI在未知环境中的适应能力"。不是考记忆,不是考训练数据里的套路,而是考模型能不能像人类一样,到了一个全新的场景后自己理解规则、找出最优解。

这对Agent的实际落地非常关键——现实世界的问题永远不是教科书上的例题。

Anthropic的估值已近万亿

Anthropic在H轮融资650亿美元后,估值已达9650亿美元。资本市场押注的不是一个聊天机器人,而是下一代具备真正推理能力的智能体基础设施。

posted @ 2026-06-04 14:06  机房管理员  阅读(7)  评论(0)    收藏  举报