如何基准测试-LLMs---ARC-AGI-3

如何基准测试 LLMs – ARC AGI 3

原文：towardsdatascience.com/how-to-benchmark-llms-arc-agi-3/

在过去几周，我们看到了像 Qwen 3 MoE、Kimi K2 和 Grok 4 这样的强大 LLMs 的发布。在可预见的未来，我们将继续看到这样的快速改进，为了比较 LLMs，我们需要基准测试。在这篇文章中，我讨论了新发布的 ARC AGI 3 基准测试以及为什么前沿 LLMs 在基准测试上完成任何任务都感到困难。

动机

今天，我们宣布了 ARC-AGI-3 的预览，这是一个人类容易而 AI 困难的交互式推理基准测试。

我们发布：

3 个游戏（环境）

$10K 代理竞赛

AI 代理 API

起始分数 – 前沿 AI：0%，人类：100% pic.twitter.com/3YY6jV2RdY

— ARC Prize (@arcprize) 2025 年 7 月 18 日

ARC AGI 3 最近发布了。

我写这篇文章的动机是跟踪 LLM 技术的最新发展。仅在过去的几周内，我们就看到了Kimi K2模型（发布时最佳开源模型）、Qwen 3 235B-A22B（目前最佳开源模型）、Grok 4等等。LLM 领域发生了许多事情，跟踪基准测试是跟上步伐的一种方式。

我认为 ARC AGI 基准测试特别有趣，主要是因为我想看看 LLMs 是否能够达到人类水平的智能。ARC AGI 谜题设计得让人类能够完成它们，但 LLMs 会感到困难。

你也可以阅读我的文章关于利用上下文工程显著提高 LLM 性能，并查看我的网站，其中包含所有我的信息和文章。

ARC AGI 简介

ARC AGI 本质上是一个模式匹配的谜题游戏。

ARC AGI 1：你被给出一系列输入输出对，并需要完成模式
ARC AGI 2：与第一个基准测试类似，对输入输出示例进行模式匹配
ARC AGI 3：在这里，您正在玩游戏，您必须将您的方块移动到目标区域，但中间有一些必要的步骤

我认为测试这些谜题游戏并自己完成它们很酷。然后，您可以看到 LLM 最初在基准测试中挣扎，然后随着更好的模型而提高性能。例如，OpenAI 的得分如下：

7.8%使用 o1 mini
75%使用 o3-low
88%使用 o3-high

正如您在下面的图片中也可以看到：

此图显示了不同 OpenAI 模型在 ARC AGI 1 基准上的表现。您可以看到性能如何随着更先进的模型而提高。图片来自ARC AGI，受 Apache 2 许可证保护。

玩 ARC AGI 基准

您也可以尝试 ARC AGI 基准或构建一个执行这些任务的 AI。访问ARC AGI 3 网站并开始玩游戏。

游戏的全部要点是您没有任何指令，您必须自己找出规则。我喜欢这个概念，因为它代表了在没有帮助的情况下解决一个全新的问题。这突出了您学习新环境、适应它们并解决问题的能力。

您可以在这里看到我玩 ARC AGI 3 的记录，这是第一次遇到这些问题。不幸的是，我无法在文章中嵌入链接。然而，测试基准并想象一个 LLM 解决它所面临的挑战是非常有趣的。我首先观察环境，并执行不同的动作会发生什么。在这个案例中，一个动作是按下相关的按钮之一。有些动作没有任何效果，而其他动作会影响环境。然后我继续揭示谜题的目标（例如，将物体移动到目标区域），并尝试实现这个目标。

为什么前沿模型实现 0%

这篇文章指出，当前沿模型在 ARC AGI 3 预览中进行测试时，它们实现了 0%。这可能对一些人来说令人失望，因为您可能能够相对快速地成功完成很多任务。

如我之前讨论的，几个 OpenAI 模型在早期的 ARC AGI 基准上取得了成功，它们最好的模型在第一版上实现了 88%，但最初模型实现了 0%，或者低个位数百分比。

我有几个关于为什么前沿模型无法在 ARC AGI 3 上执行任务的理论：

上下文长度

当你在 ARC AGI 3 上工作时，你不会得到任何关于游戏的信息。因此，模型必须尝试各种动作，查看这些动作的输出（例如，没有任何事情发生，或者一个方块移动等）。然后，模型必须评估它所采取的动作，包括输出，并考虑其下一步的行动。

我认为 ARC AGI 3 上的动作空间非常大，因此模型很难既进行足够的实验以找到正确的动作，又避免重复失败的动作。模型本质上存在一个与上下文长度和充分利用其长度的问题。

我最近读了一篇来自 Manus 的有趣文章，关于他们如何开发他们的代理并管理他们的记忆。你可以使用总结先前上下文或使用文件系统存储重要上下文等技术。我相信这将对于提高 ARC AGI 3 基准上的性能至关重要。

训练数据集

另一个主要原因是，前沿模型无法成功完成 ARC AGI 3 任务，是因为这些任务与它们的训练数据集非常不同。如果这样的任务（或类似的任务）包含在训练数据集中，LLM 在任务上的表现几乎总是要好得多。在这个例子中，我相信 LLM 在处理游戏方面几乎没有训练数据。此外，这里的一个重要观点也是 LLM 的代理训练数据。

当我提到有代理的训练数据时，我的意思是 LLM 正在使用工具并执行动作的数据。我相信我们正在看到 LLM 作为代理的使用迅速增加，因此，用于代理行为的训练数据量也在迅速增加。然而，可能是因为当前的尖端模型在执行此类动作方面仍然不够好，尽管在接下来的几个月里，这种能力可能会迅速提高。

有些人会强调这证明了大型语言模型（LLM）没有真正的智能：智能（以及 ARC AGI 基准）的整个点在于能够在没有任何线索的情况下理解任务，只需通过检查环境。在某种程度上，我同意这个观点，并且希望看到模型因为模型智能的提升而在 ARC AGI 基准上表现更好，而不是因为基准追逐，这个概念我在本文后面会探讨。

未来基准性能

在未来，我相信我们将看到模型在 ARC AGI 3 上的性能有巨大的提升。主要是因为我认为你可以创建针对代理性能进行微调的 AI 代理，并且最优化地利用它们的记忆。我相信相对便宜的提升可以极大地提高性能，尽管我也预计更昂贵（例如，GPT-5 的发布）的改进将在这个基准上表现良好。

基准追逐

我认为留一个关于基准追逐的部分是很重要的。基准追逐是 LLM 提供商在基准上追逐最优分数的概念，而不仅仅是创建最好的或最智能的 LLMs。这是一个问题，因为基准性能和 LLM 智能之间的相关性不是 100%。

在强化学习领域，基准追逐被称为奖励黑客。一个场景是，智能体找到了一种方法来黑客他们所在的环境以获得奖励，而没有正确完成任务。

LLM 提供商这样做的原因是，每当发布一个新的模型时，人们通常会关注两件事：

基准性能
Vibe

基准性能通常在已知的基准上进行衡量，例如 SWE-bench 和 ARC AGI。Vibe 测试也是公众衡量 LLM 的常用方法（我并不是说这是一种测试模型的好方法，我只是在说在实践中确实如此）。然而，这个问题在于，我相信用模型的 Vibe 来给人留下深刻印象是非常简单的，因为 Vibe 检查只尝试了 LLM 动作空间的一小部分。你可能只问它一些在网络上可找到的问题，或者要求它编写一个模型在训练数据中已经看到过 1000 个实例的应用程序。

因此，你应该做的是为自己设定一个基准，例如，一个尚未泄露到互联网的内部数据集。然后你可以基准测试哪种 LLM 最适合你的用例，并优先使用这个 LLM。

结论

在这篇文章中，我讨论了 LLM 基准及其为什么对于比较 LLMs 很重要。我向您介绍了新发布的 ARC AGI 3 基准。考虑到人类能够轻松完成一些任务，而前沿模型得分为 0%，这个基准非常有趣。这因此代表了一个人类智能仍然优于 LLMs 的任务。

随着我们不断进步，我相信我们将在 ARC AGI 3 上看到 LLM 性能的快速提升，尽管我希望这不会是基准追逐的结果，而是 LLM 智能提升的结果。

posted @ 2026-03-28 09:27 绝不原创的飞龙阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈