如何基准测试-LLMs---ARC-AGI-3

如何基准测试 LLMs – ARC AGI 3

原文:towardsdatascience.com/how-to-benchmark-llms-arc-agi-3/

过去几周,我们看到了像 Qwen 3 MoE、Kimi K2 和 Grok 4 这样的强大 LLMs 的发布。在可预见的未来,我们将继续看到这样的快速改进,为了比较 LLMs,我们需要基准测试。在这篇文章中,我讨论了新发布的 ARC AGI 3 基准测试以及为什么前沿 LLMs 在基准测试上完成任何任务都感到困难。

动机

今天,我们宣布了 ARC-AGI-3 的预览,这是一个人类容易而 AI 困难的交互式推理基准测试。

我们发布:

  • 3 个游戏(环境)

  • $10K 代理竞赛

  • AI 代理 API

起始分数 – 前沿 AI:0%,人类:100% pic.twitter.com/3YY6jV2RdY

— ARC Prize (@arcprize) 2025 年 7 月 18 日

ARC AGI 3 最近发布了。

我写这篇文章的动机是跟踪 LLM 技术的最新发展。仅在过去的几周内,我们就看到了Kimi K2模型(发布时最佳开源模型)、Qwen 3 235B-A22B(目前最佳开源模型)、Grok 4等等。LLM 领域发生了许多事情,跟踪基准测试是跟上步伐的一种方式。

我认为 ARC AGI 基准测试特别有趣,主要是因为我想看看 LLMs 是否能够达到人类水平的智能。ARC AGI 谜题设计得让人类能够完成它们,但 LLMs 会感到困难。

你也可以阅读我的文章关于利用上下文工程显著提高 LLM 性能,并查看我的网站,其中包含所有我的信息和文章。

目录

  • ARC AGI 简介

  • 玩 ARC AGI

  • 为什么前沿模型只达到 0%

    • 上下文长度

    • 训练数据集

    • 未来基准测试性能

  • 基准测试追逐

  • 结论

ARC AGI 简介

ARC AGI 本质上是一个模式匹配的谜题游戏。

  • ARC AGI 1:你被给出一系列输入输出对,并需要完成模式

  • ARC AGI 2: 与第一个基准测试类似,对输入输出示例进行模式匹配

  • ARC AGI 3:在这里,您正在玩游戏,您必须将您的方块移动到目标区域,但中间有一些必要的步骤

我认为测试这些谜题游戏并自己完成它们很酷。然后,您可以看到 LLM 最初在基准测试中挣扎,然后随着更好的模型而提高性能。例如,OpenAI 的得分如下:

  • 7.8%使用 o1 mini

  • 75%使用 o3-low

  • 88%使用 o3-high

正如您在下面的图片中也可以看到:

图片

此图显示了不同 OpenAI 模型在 ARC AGI 1 基准上的表现。您可以看到性能如何随着更先进的模型而提高。图片来自ARC AGI,受 Apache 2 许可证保护。

玩 ARC AGI 基准

您也可以尝试 ARC AGI 基准或构建一个执行这些任务的 AI。访问ARC AGI 3 网站并开始玩游戏。

游戏的全部要点是您没有任何指令,您必须自己找出规则。我喜欢这个概念,因为它代表了在没有帮助的情况下解决一个全新的问题。这突出了您学习新环境、适应它们并解决问题的能力。

您可以在这里看到我玩 ARC AGI 3 的记录,这是第一次遇到这些问题。不幸的是,我无法在文章中嵌入链接。然而,测试基准并想象一个 LLM 解决它所面临的挑战是非常有趣的。我首先观察环境,并执行不同的动作会发生什么。在这个案例中,一个动作是按下相关的按钮之一。有些动作没有任何效果,而其他动作会影响环境。然后我继续揭示谜题的目标(例如,将物体移动到目标区域),并尝试实现这个目标。

为什么前沿模型实现 0%

这篇文章指出,当前沿模型在 ARC AGI 3 预览中进行测试时,它们实现了 0%。这可能对一些人来说令人失望,因为您可能能够相对快速地成功完成很多任务。

如我之前讨论的,几个 OpenAI 模型在早期的 ARC AGI 基准上取得了成功,它们最好的模型在第一版上实现了 88%,但最初模型实现了 0%,或者低个位数百分比。

我有几个关于为什么前沿模型无法在 ARC AGI 3 上执行任务的理论:

上下文长度

当你在 ARC AGI 3 上工作时,你不会得到任何关于游戏的信息。因此,模型必须尝试各种动作,查看这些动作的输出(例如,没有任何事情发生,或者一个方块移动等)。然后,模型必须评估它所采取的动作,包括输出,并考虑其下一步的行动。

我认为 ARC AGI 3 上的动作空间非常大,因此模型很难既进行足够的实验以找到正确的动作,又避免重复失败的动作。模型本质上存在一个与上下文长度和充分利用其长度的问题。

我最近读了一篇来自 Manus 的有趣文章,关于他们如何开发他们的代理并管理他们的记忆。你可以使用总结先前上下文或使用文件系统存储重要上下文等技术。我相信这将对于提高 ARC AGI 3 基准上的性能至关重要。

训练数据集

另一个主要原因是,前沿模型无法成功完成 ARC AGI 3 任务,是因为这些任务与它们的训练数据集非常不同。如果这样的任务(或类似的任务)包含在训练数据集中,LLM 在任务上的表现几乎总是要好得多。在这个例子中,我相信 LLM 在处理游戏方面几乎没有训练数据。此外,这里的一个重要观点也是 LLM 的代理训练数据。

当我提到有代理的训练数据时,我的意思是 LLM 正在使用工具并执行动作的数据。我相信我们正在看到 LLM 作为代理的使用迅速增加,因此,用于代理行为的训练数据量也在迅速增加。然而,可能是因为当前的尖端模型在执行此类动作方面仍然不够好,尽管在接下来的几个月里,这种能力可能会迅速提高。

有些人会强调这证明了大型语言模型(LLM)没有真正的智能:智能(以及 ARC AGI 基准)的整个点在于能够在没有任何线索的情况下理解任务,只需通过检查环境。在某种程度上,我同意这个观点,并且希望看到模型因为模型智能的提升而在 ARC AGI 基准上表现更好,而不是因为基准追逐,这个概念我在本文后面会探讨。

未来基准性能

在未来,我相信我们将看到模型在 ARC AGI 3 上的性能有巨大的提升。主要是因为我认为你可以创建针对代理性能进行微调的 AI 代理,并且最优化地利用它们的记忆。我相信相对便宜的提升可以极大地提高性能,尽管我也预计更昂贵(例如,GPT-5 的发布)的改进将在这个基准上表现良好。

基准追逐

我认为留一个关于基准追逐的部分是很重要的。基准追逐是 LLM 提供商在基准上追逐最优分数的概念,而不仅仅是创建最好的或最智能的 LLMs。这是一个问题,因为基准性能和 LLM 智能之间的相关性不是 100%。

在强化学习领域,基准追逐被称为奖励黑客。一个场景是,智能体找到了一种方法来黑客他们所在的环境以获得奖励,而没有正确完成任务。

LLM 提供商这样做的原因是,每当发布一个新的模型时,人们通常会关注两件事:

  • 基准性能

  • Vibe

基准性能通常在已知的基准上进行衡量,例如 SWE-bench 和 ARC AGI。Vibe 测试也是公众衡量 LLM 的常用方法(我并不是说这是一种测试模型的好方法,我只是在说在实践中确实如此)。然而,这个问题在于,我相信用模型的 Vibe 来给人留下深刻印象是非常简单的,因为 Vibe 检查只尝试了 LLM 动作空间的一小部分。你可能只问它一些在网络上可找到的问题,或者要求它编写一个模型在训练数据中已经看到过 1000 个实例的应用程序。

因此,你应该做的是为自己设定一个基准,例如,一个尚未泄露到互联网的内部数据集。然后你可以基准测试哪种 LLM 最适合你的用例,并优先使用这个 LLM。

结论

在这篇文章中,我讨论了 LLM 基准及其为什么对于比较 LLMs 很重要。我向您介绍了新发布的 ARC AGI 3 基准。考虑到人类能够轻松完成一些任务,而前沿模型得分为 0%,这个基准非常有趣。这因此代表了一个人类智能仍然优于 LLMs 的任务。

随着我们不断进步,我相信我们将在 ARC AGI 3 上看到 LLM 性能的快速提升,尽管我希望这不会是基准追逐的结果,而是 LLM 智能提升的结果。

posted @ 2026-03-28 09:27  绝不原创的飞龙  阅读(0)  评论(0)    收藏  举报