Claude Opus 4.8登顶ARC-AGI-3：没给任何提示，AI自己学会了玩游戏

ARC-AGI是衡量AI泛化能力的"地狱级"测试——它把模型扔进从没见过的谜题里，不给说明、不给提示，让AI自己摸索规则。

最新榜单上，Claude Opus 4.8（High）以1.5%得分登顶，是第二名（0.5%）的3倍，是GPT-5.5的近4倍。

单次评测成本高达1万美元。这个分数虽然证明了能力的飞跃，但成本决定了它短期内无法大规模应用。

ARC-AGI测试的本质是"AI在未知环境中的适应能力"。不是考记忆，不是考训练数据里的套路，而是考模型能不能像人类一样，到了一个全新的场景后自己理解规则、找出最优解。

这对Agent的实际落地非常关键——现实世界的问题永远不是教科书上的例题。

Anthropic在H轮融资650亿美元后，估值已达9650亿美元。资本市场押注的不是一个聊天机器人，而是下一代具备真正推理能力的智能体基础设施。

posted @ 2026-06-04 14:06 机房管理员阅读(7) 评论(0) 收藏举报

刷新页面返回顶部

jaryn