GAIA-大家都在谈论的-LLM-代理基准

GAIA:大家都在谈论的 LLM 代理基准

原文链接

LLM 代理上周成为了头条新闻。

在微软的 Build 2025 大会上,CEO 萨蒂亚·纳德拉介绍了“开放代理网络”的愿景,并展示了一个由 Azure AI Foundry 驱动的更新的 GitHub Copilot,作为多代理团队成员。

Google 的 I/O 2025 紧接着推出了一系列代理 AI 创新:Gemini 2.5 中的新代理模式,编码助手 Jules 的公开测试版,以及原生支持模型上下文协议,这使代理之间的协作更加顺畅。

OpenAI 也没有闲着。他们将网络浏览代理 Operator 升级到新的 o3 模型,这为日常任务带来了更多的自主性、推理能力和上下文意识。

在所有的公告中,一个关键词不断出现:GAIA。似乎每个人都急于报告他们的 GAIA 分数,但你实际上真的了解它是什么吗?

如果你好奇 GAIA 分数背后的内容,你就在正确的位置。在这篇博客中,我们将解析 GAIA 基准,讨论它是什么,如何工作,以及为什么在选择 LLM 代理工具时你应该关注这些数字。


1. 代理 AI 评估:从问题到解决方案

LLM 代理是使用 LLM 作为核心的 AI 系统,可以通过结合自然语言理解、推理、规划、记忆和工具使用来自主地执行任务。

与标准的 LLM 不同,它们不仅仅是被动响应提示。相反,它们会主动采取行动,适应上下文,并与人类(甚至与其他代理)合作解决复杂任务。

随着这些代理能力的增强,一个自然而然的重要问题随之而来:我们如何判断它们有多好?

我们需要标准的基准评估。

一段时间以来,LLM 社区一直依赖那些非常适合测试 LLM 特定技能的基准,例如,在MMLU上的知识回忆,在GSM8K上的算术推理,在HumanEval上的片段级代码生成,或者在SuperGLUE上的单轮语言理解。

这些测试当然很有价值。但这里有个问题:评估一个完整的 AI 助手是一项完全不同的游戏

助手需要在多个步骤中自主规划决定行动。这些动态的、现实世界的技能并不是那些“较老”的评估范式的主要焦点。

这迅速凸显了一个差距:我们需要一种方法来衡量全面实用的智能。

出现了 GAIA。


2. GAIA 解析:内部结构是什么?

GAIA代表General AI Assistants 基准[1]。这个基准是为了特别评估 LLM 代理作为通用人工智能助手的能力而引入的。它是 Meta-FAIR、Meta-GenAI、Hugging Face 和其他与 AutoGPT 倡议相关的研究人员共同努力的结果。

为了更好地理解,让我们通过查看其结构、如何评分以及它与其他基准的不同之处来分解这个基准。

2.1 GAIA 的结构

GAIA 本质上是一个以问题驱动的基准,其中 LLM 代理被要求解决这些问题。这要求他们展示一系列广泛的能力,包括但不限于:

  • 逻辑推理

  • 多模态理解,例如,解释图像、以非文本格式呈现的数据等。

  • 网络浏览以检索信息

  • 使用各种软件工具,例如,代码解释器、文件操作器等。

  • 战略规划

  • 从不同的来源汇总信息

让我们看看一个“困难”的 GAIA 问题。

在 2008 年的画作乌兹别克斯坦刺绣中展示的水果中,哪些作为1949 年 10 月海洋客轮早餐菜单的一部分被提供,该客轮后来被用作电影最后的航行中的浮动道具?以逗号分隔的列表形式给出,并按画中从 12 点位置顺时针方向排列,每个水果使用复数形式。

解决这个问题迫使代理(1)执行图像识别以标记画中的水果,(2)研究电影 trivia 以了解船只的名称,(3)检索并解析 1949 年的历史菜单,(4)交叉两个水果列表,(5)将答案格式化成所需的形式。这同时展示了多个技能支柱。

总共,这个基准由 466 个精心挑选的问题组成。它们被分为一个开发/验证集,它是公开的,以及一个包含 300 个问题的私有测试集,这些问题的答案被保留以支持官方排行榜。GAIA 的独特之处在于它们被设计成具有明确、事实性的答案。这一特性极大地简化了评估过程,并确保了评分的一致性。

GAIA 问题基于三个难度级别进行结构化。这种设计的理念是逐步探测更复杂的技能:

  • 第一级:这些任务旨在由非常熟练的 LLM 解决。它们通常需要少于五个步骤来完成,并且只涉及最小限度的工具使用。

  • 第二级:这些任务需要更复杂的推理和正确使用多个工具。解决方案通常涉及五到十个步骤。

  • 第三级:这些任务代表了基准中最具挑战性的任务。成功回答这些问题将需要长期规划和多种工具的复杂集成。

现在我们已经了解了 GAIA 测试的内容,让我们来看看它是如何衡量成功的。

2.2 GAIA 的评分

LLM 代理的性能主要沿着两个主要维度进行衡量,准确性成本

对于准确性,这无疑是评估性能的主要指标。GAIA 的特殊之处在于,准确性指标通常不仅仅报告为所有问题的整体得分。此外,还报告了每个三个难度级别的个体得分,以便清楚地展示代理在处理不同复杂度问题时的能力。

对于成本,它以美元为单位衡量,反映了代理在评估集中尝试所有任务所发生的总 API 成本。成本指标在实践中非常有价值,因为它评估了代理在现实世界中的效率成本效益。一个性能优异但成本过高的代理在规模上可能是不切实际的。相比之下,即使准确率略低,成本效益高的模型在生产中可能更受欢迎。

为了让您更清楚地了解准确性在实际中的样子,请考虑以下参考点:

  • 人类在 GAIA 任务上的准确率大约为 92%。

  • 作为比较,早期的 LLM 代理(由带有插件支持的 GPT-4 提供动力)的起始分数大约为 15%。

  • 更近期的表现优异的代理,例如来自 H2O.ai 的 h2oGPTe(由 Claude-3.7-sonnet 提供动力),整体得分达到约 74%,其中 1/2/3 级别的得分分别为 86%、74.8%和 53%。

这些数字显示了代理的改进程度,但也显示了 GAIA 对顶级 LLM 代理系统来说仍然具有挑战性。

但是什么使得 GAIA 的难度对评估现实世界代理能力如此有意义?

2.3 GAIA 的指导原则

使 GAIA 脱颖而出的不仅仅是它的难度;它的难度是精心设计的,以测试代理在实际、现实场景中需要的技能。这一设计背后有几个重要的原则:

  • 现实世界难度:GAIA 任务故意具有挑战性。它们通常需要多步骤推理、跨模态理解和使用工具或 API。这些要求与代理在实际应用中可能面临的任务类型紧密相似。

  • 人类可解释性:尽管这些任务对 LLM 代理来说可能具有挑战性,但对人类来说仍然直观易懂。这使得研究人员和实践者更容易分析错误并追踪代理的行为。

  • 不可游戏性:得到正确答案意味着代理必须完全解决任务,而不仅仅是猜测或使用模式匹配。GAIA 还通过要求推理轨迹和避免具有易于搜索答案的问题来阻止过拟合。

  • 评估的简单性:GAIA 问题的答案设计得简洁、事实性强且无歧义。这允许进行自动(且客观)评分,从而使大规模比较更加可靠和可重复。

在对 GAIA 内部有了更清晰的理解之后,接下来的问题是:当我们看到研究论文、产品公告或供应商比较中的这些评分时,我们应该如何解释它们?

3. 将 GAIA 评分付诸实践

并非所有 GAIA 评分都是相同的,标题数字应该带着一点怀疑来看。以下有四个关键点需要记住:

  1. 优先考虑私有测试集结果。在查看 GAIA 评分时,始终要记住检查评分是如何计算的。是基于公共验证集还是私有测试集?验证集的问题和答案在网上广泛可用。因此,模型很可能在训练期间“记住”了它们,而不是从真正的推理中得出解决方案。私有测试集是“真正的考试”,而公共集更像是一场“开卷考试”。

  2. 不仅要看整体准确率,还要深入挖掘难度级别。虽然整体准确率分数提供了一个大致的概念,但更深入地了解代理在不同难度级别上的表现通常更好。特别关注第 3 级任务,因为在那里表现出色意味着代理在长期规划和复杂工具使用及整合方面的能力有了显著提升。

  3. 寻求成本效益的解决方案。始终旨在识别在给定成本下提供最佳性能的代理。我们在这里看到了显著的进步。例如,最近的知识图谱思维(KGoT)架构 [2] 可以用 GPT-4o mini 解决 GAIA 验证集中的多达 57 个任务(总共 165 个任务),总成本约为 5 美元,而与早期版本的 Hugging Face Agents 相比,后者使用 GPT-4o 解决大约 29 个任务,成本为 187 美元。

  4. 注意潜在数据集的不完美之处。大约 5% 的 GAIA 数据(包括验证集和测试集)在真实答案中包含错误/歧义。虽然这使得评估变得复杂,但也有一些积极的一面:在包含不完美答案的问题上测试 LLM 代理可以清楚地显示出哪些代理真正进行了推理,而不是仅仅泄露了他们的训练数据。

4. 结论

在这篇文章中,我们解构了 GAIA,这是一个迅速成为该领域首选的代理评估基准。以下是需要记住的主要观点:

  1. GAIA 是人工智能助手的现实检验。它专门设计来测试 LLM 代理作为人工智能助手的一系列复杂能力。这些技能包括复杂推理、处理不同类型的信息、网络浏览以及有效使用各种工具。

  2. 超越标题数字。检查测试集来源、难度分解和成本效益。

GAIA 代表了朝着以我们实际希望使用它们的方式评估 LLM 代理的重大一步:作为能够处理现实世界混乱、多方面挑战的自主助手。

可能会出现新的评估框架,但 GAIA 的核心原则、现实世界的相关性、人类可解释性和对游戏化的抵抗力,可能仍然是我们衡量人工智能代理的关键。

参考文献

[1] Mialon 等人,GAIA:通用人工智能助手的基准,2023,arXiv。

[2] Besta 等人,具有思维知识图谱的实惠人工智能助手,2025,arXiv。

posted @ 2026-03-27 09:51  绝不原创的飞龙  阅读(0)  评论(0)    收藏  举报