【综述】大语言模型智能体的评估与基准测试

摘要

基于大型语言模型（LLM）的代理（Agent）的兴起为人工智能（AI）应用开辟了新的前沿，但对这些代理的评估仍然是一个复杂且尚不成熟的领域。本综述深入概述了 LLM 代理评估这一新兴领域，并引入了一个二维分类法，该分类法从以下两个维度梳理了现有工作：（1）评估目标——评估什么，如代理行为、能力、可靠性和安全性；（2）评估过程——如何评估，包括交互模式、数据集与基准、指标计算方法和工具。除了分类法，我们还重点指出了企业特有的挑战，例如基于角色的数据访问、对可靠性的保证需求、动态和长周期的交互以及合规性，这些在当前研究中常常被忽视。我们还指出了未来的研究方向，包括整体性、更贴近现实和可扩展的评估方法。本文旨在厘清当前碎片化的代理评估格局，并为系统性评估提供一个框架，从而帮助研究人员和从业者为真实世界的部署评估 LLM 代理。

1. 引言

基于 LLM 的代理是利用 LLM 进行推理、规划和行动的自主或半自主系统，代表了人工智能领域一个快速发展的前沿。从客户服务机器人、编程助手到数字助理，LLM 代理正在重新定义我们构建智能系统的方式。

随着这些代理从研究原型走向实际应用，如何严格评估它们的问题变得既紧迫又复杂。评估不佳的代理可能导致幻觉输出、错误行动或有害行为，在医疗、法律和企业决策等高风险领域可能引发严重后果。然而，评估 LLM 代理比单独评估 LLM 更为复杂。与主要评估文本生成或问答能力的 LLM 不同，LLM 代理在动态、交互的环境中运行。它们进行推理和规划、执行工具、利用记忆，甚至与人类或其他代理协作。这种复杂的行为和对现实世界影响的依赖，使得标准的 LLM 评估方法不足以胜任。打个比方，LLM 评估就像检查发动机的性能，而代理评估则是全面评估一辆汽车在各种驾驶条件下的性能。

LLM 代理评估也不同于传统的软件评估。软件测试侧重于确定性和静态行为，而 LLM 代理本质上是概率性的，行为动态多变；因此，它们需要新的方法来评估其性能。LLM 代理的评估处于自然语言处理（NLP）、人机交互（HCI）和软件工程的交叉点，这要求我们具备更多的视角。

尽管该领域日益受到关注，但现有综述要么狭隘地关注 LLM 评估，要么只涵盖特定的代理能力，缺乏一个整体性的视角。此外，企业应用对代理提出了额外要求，包括对数据和系统的安全访问、为审计和合规目的而具备的高度可靠性，以及更复杂的交互模式，这些在现有文献中很少被提及。本综述旨在为代理评估领域的从业者和研究人员提供有用的参考。我们在本综述中的贡献有两方面：

我们提出了一个 LLM 代理评估的分类法，通过评估目标（评估什么，如行为、能力、可靠性和安全性）和评估过程（如何评估，包括交互模式、数据集和基准、指标计算方法、评估工具和评估环境）来组织先前的研究工作。
我们强调了企业特有的挑战，包括基于角色的访问控制、可靠性保证、长期交互和合规性要求。

本文的其余部分结构如下。第 2 节描述了本综述用于分析代理评估领域的分类法。第 3 节深入探讨了分类法的第一个维度——评估目标，重点关注代理待评估的方面。第 4 节描述了第二个维度——评估过程，重点关注评估方法。第 5 节讨论了在企业环境中评估 LLM 代理的挑战。第 6 节概述了开放性问题和未来的研究方向，以指导下一阶段 LLM 代理评估的工作。

2. LLM 代理评估的分类法

我们提出了一个二维分类法来组织基于 LLM 的代理评估的不同方面，其结构围绕评估目标（评估什么）和评估过程（如何评估）两个轴线展开。该分类法在图 1 中以层次树的形式可视化。

评估目标维度关注的是评估的对象。该维度中的第一个类别代理行为，侧重于结果导向的方面，如任务完成度和输出质量，捕捉代理在多大程度上满足最终用户的期望。其次，代理能力强调过程导向的能力，包括工具使用、规划与推理、记忆与上下文保持以及多代理协作。这些能力为了解代理如何实现其目标以及它们在多大程度上满足其设计规范提供了洞见。可靠性评估代理在相同输入下是否表现一致，以及在输入变化或系统遇到错误时是否具有鲁棒性。最后，安全性与对齐评估代理的可信赖度和安全性，包括公平性、合规性以及防止有害或不道德行为。

评估过程维度描述了如何评估代理。交互模式区分了静态评估（代理响应固定输入）和交互式评估（代理与用户互动）。评估数据讨论了合成数据和真实世界数据集，以及针对特定领域（如软件工程、医疗保健和金融）量身定制的基准。指标计算方法包括定量测量（如任务成功率和事实准确性）以及基于人类或 LLM 判断的定性评估。评估工具指的是支持性基础设施，如检测框架（例如 LangSmith, Arize AI）和公共排行榜（例如 Holistic Evaluation of Agents），它们使得可扩展和可复现的评估成为可能。最后，评估上下文定义了进行评估的环境，从受控的模拟环境到开放世界设置（如网络浏览器或 API）。

该分类法既是一个概念框架，也是一个实践指南，使得在广泛的目标、方法和部署条件下对 LLM 代理进行系统性比较和分析成为可能。在接下来的章节中，我们将详细研究每个维度，重点介绍关键的评估实践和代表性研究。

随着 LLM 代理被部署在日益多样化和复杂的环境中，单轮与多轮交互、多语言性、多模态等因素都变得更加重要。虽然该分类法在这些变化中仍然适用，但通常需要量身定制的指标和评估策略。我们将在接下来的相关章节中讨论这些具体的调整。

3. 评估目标

3.1. 代理行为

代理行为指的是用户感知的代理整体性能，将代理视为一个黑盒。它代表了评估中最高层次的视角，并提供了对用户体验最直接的洞察。该类别包括任务完成度、输出质量、延迟和成本等方面。

3.1.1. 任务完成度

任务完成度是代理评估的一个基本目标，评估代理是否成功实现了给定任务的预定目标。它涉及确定是否达到了期望的状态，或者是否满足了为任务成功定义的特定标准。尽管有时被认为在提供细粒度的失败洞察方面有限，尤其是在大多数模型成功率较低时，任务完成度仍然是衡量代理整体性能的主要和基本指标。

任务完成度通常使用成功率（SR）等指标进行量化，该指标也可称为任务成功率 或总体成功率 。其他相关指标包括任务目标完成度（TGC）和通过率 。一些评估采用二元指标，例如一个奖励函数，在目标实现时返回 0 或 1 。pass@k 和 pass^k* 等指标通过考虑多次尝试的成功情况来扩展这一点。

这一关键目标被广泛应用于各种 LLM 代理评估领域和基准。这包括与编码和软件工程相关的任务，例如解决 GitHub 问题（SWE-bench ）、科学数据分析编程（ScienceAgentBench ）、复现研究（CORE-Bench , PaperBench ）以及在应用中进行交互式编码（AppWorld ）。它也广泛用于与网络环境交互的代理，包括通用网页导航（BrowserGym , WebArena , WebCanvas ）、多模态网络任务（VisualWebArena , MMInA ）和耗时的现实网络任务（ASSISTANTBENCH ）。

3.1.2. 输出质量

输出质量指的是 LLM 代理响应的特性。它是一个总括性术语，涵盖了准确性、相关性、清晰度、连贯性以及对代理规范或任务要求的遵守程度等方面。一个代理即使完成了任务，但如果交互缺乏上述品质，仍可能提供不佳的用户体验。输出质量在评估对话代理时尤其重要，因为用户目标通常是通过多轮对话实现的。该类别中的许多指标与大型语言模型（LLM）评估中使用的指标重叠。例如，流畅性指标用于衡量 LLM 的输出在多大程度上满足自然语言的惯例。逻辑连贯性指标关注论证的严谨性。由于 LLM 代理可能利用工具检索基础信息并提供上下文感知的文本答案，因此检索增强生成（RAG）系统中使用的标准指标也适用，例如响应相关性或事实正确性。

3.1.3. 延迟与成本

延迟是代理行为的一个关键方面，尤其是在用户与代理同步交互的场景中。长时间的等待会显著降低用户体验并侵蚀对系统的信任。在这种情况下，一个常用的指标是首个令牌时间（TTFT），它衡量用户在流式模式下看到 LLM 响应的第一个令牌之前的延迟。对于代理异步操作的用例，端到端请求延迟——接收完整响应的时间——通常更具相关性。

虽然成本不是最终用户直接观察到的，但它在决定大规模部署代理的实用性方面起着至关重要的作用。我们将成本作为衡量代理资金效率的指标。它通常根据输入和输出令牌的数量来估算，这与大多数 LLM 部署中基于使用量的定价直接相关。

3.2. 代理能力

除了外部行为，评估通常还针对 LLM 代理的特定能力，这些能力是其性能的基础。该类别的主要方面包括工具使用、规划与推理、记忆与上下文保持以及多代理协作。评估这些能力有助于在更细粒度的层面上确定代理的优势和劣势。

3.2.1. 工具使用

工具使用是基于 LLM 的代理的核心能力，使其能够检索基础信息、执行操作并与外部环境交互。在本综述中，工具使用涉及单个工具的调用，并与函数调用可互换；确定复杂任务的工具序列的更复杂情况将在 3.2.2 节中讨论。最近的进展使得像 ChatGPT-3.5 及更高版本的 LLM 能够原生支持函数调用。这些模型可以自主决定是否调用函数，从候选集中选择合适的函数，并生成所需的参数。因此，LLM 代理可以直接构建在底层模型的函数之上，使得许多最初为 LLM 开发的工具使用评估技术得以应用。

工具使用的评估涉及回答几个关键问题。首先，代理能否正确判断给定任务是否需要调用工具？如果需要，它能否从一组定义的候选工具中选择合适的工具？一旦选择了工具，代理必须能够识别工具所需的正确参数，然后为每个参数生成适当的值以确保正确执行。在候选工具集非常广泛的情况下，代理可能还需要根据任务的自然语言描述从存储库中检索正确的工具。

已经提出了几种指标来评估这些能力。调用准确率 评估代理是否就根本是否调用工具做出了正确的决定。工具选择准确率衡量是否从选项列表中选择了正确的工具。检索准确率关注系统是否能从更大的工具集中检索到正确的工具，通常使用排名准确率 k 来衡量。对于基于排名的评估，平均倒数排名（MRR）量化了正确工具在排名列表中的位置。相比之下，归一化折扣累积增益（NDCG）反映了系统对所有相关工具的排名情况。

与参数相关的评估涉及两个方面。参数名称 F1 分数 衡量代理正确识别给定函数所需参数名称的能力，然后正确地为它们赋值。虽然一些评估依赖于抽象语法树（AST）的正确性来检查工具调用在语法上是否有效，但这种方法可能会忽略语义错误，例如不正确或虚构的参数值，特别是对于限制为枚举类型的参数。为了解决这个限制，最近的工作，如 Gorilla 论文，提出了基于执行的评估，其中系统运行工具调用并评估其结果，从而对工具使用能力提供了更全面和有根据的评估。

3.2.2. 规划与推理

规划与推理是基于 LLM 的代理的基本能力，尤其是在需要多步骤或在不确定性下做决策的复杂任务中。规划涉及以适当的顺序选择正确的工具集。同时，推理使代理能够做出上下文感知的决策，无论是在任务执行前预先做出，还是在执行过程中动态做出。T-eval 将规划评估表述为将预测的工具集与参考集进行比较。由于工具的顺序和依赖关系也很重要，一些基准采用基于图的表示，并引入了诸如用于工具选择的节点 F1和用于评估工具调用序列和结构准确性的边 F1或归一化编辑距离等指标。

在动态环境中，代理通常需要交错进行规划和执行，根据不断变化的上下文调整其行动。这种模式由 ReAct 范式所阐释，其中代理在推理步骤和工具使用之间交替进行。评估这种自适应推理需要的不仅仅是比较静态计划——它需要能够反映实时决策的指标。T-Eval 框架通过引入一个推理指标来解决这个问题，该指标评估代理预测的下一个工具调用在每一步与预期调用的吻合程度。这捕捉了代理在工具输出未知时做出明智决策的能力。同样，AgentBoard 提出了进度率指标，它将代理的实际轨迹与预期轨迹进行比较，从而提供了一个衡量代理如何有效推进其目标的细粒度度量。

当指示代理以生成完整的多步程序的形式进行规划时，代码生成的评估方法就变得相关了。像 ScienceAgentBench 这样的基准使用程序相似性指标将生成的计划与带注释的参考进行比较。此外，还提出了步骤成功率来衡量生成计划中成功执行的步骤百分比，从而在执行期间提供了规划质量的整体视图。

3.2.3. 记忆与上下文保持

对于长期运行的代理来说，一个关键能力是在多次交互中保留信息并将先前的上下文应用于当前请求。Guan 等人通过记忆跨度（信息存储多长时间）和记忆形式（信息如何表示）对多轮对话中的记忆评估进行分类。例如，LongEval 和 SocialBench 是测试代理在长对话（40+轮）中上下文保持能力的基准。代理可能会被给予一个跨越数十次交流的对话，然后被问及需要回忆对话早期细节的问题。Maharana 等人展示了跨越数百轮（600+轮）对话的评估，而 Li 等人引入了记忆增强的评估技术，跟踪代理在长周期任务中保持一致性的情况。这些评估通常使用合成或记录的对话作为数据集，指标包括事实回忆准确率或一致性得分（轮次之间无矛盾）。记忆评估也可能考虑使用工具的代理的工作记忆（即代理是否跟踪中间结果）和遗忘策略（即它是否适当地忘记不相关的细节以避免混淆）。

3.2.4. 多代理协作

与传统的强化学习驱动的协调相比，评估基于 LLM 的系统中的多代理协作需要不同的方法论。与依赖预定义奖励结构的传统代理不同，LLM 代理通过自然语言、战略推理和去中心化问题解决进行协调。这些能力在现实世界的应用中至关重要，例如金融决策和结构化数据分析，在这些应用中，自主代理必须有效地交换信息、协商和同步决策过程。Autonomous Agents for Collaborative Tasks 评估协作效率，评估多个代理如何动态地分担责任和分配任务。

3.3. 可靠性

可靠性是一个至关重要的目标，特别是当 LLM 代理被考虑用于企业和安全关键型应用时。它包括一致性、对变化的鲁棒性以及代理输出的可信赖性。与可能衡量最佳情况能力的任务性能不同，可靠性评估探究的是最坏情况和平均情况的场景。

3.3.1. 一致性

一致性指的是当同一任务重复多次时输出的稳定性。由于 LLM 本质上是非确定性的，基于 LLM 的代理在其行为中也表现出可变性。为了在企业或其他高风险应用中获得信任，代理必须在同一任务的重复运行中表现出一致的性能。在这种情况下，一个常用的指标是 pass@k，它衡量代理在 k 次尝试中至少成功一次的概率。然而，一个更严格的一致性衡量标准是代理是否在所有 k 次尝试中都成功。这在 τ-benchmark 中被形式化为 pass^k* 指标，它更好地捕捉了关键任务部署的一致性要求。

3.3.2. 鲁棒性

鲁棒性指的是代理在面对输入变化或环境变化时输出的稳定性。为了保持有效和可信，基于 LLM 的代理必须在一系列具有挑战性的条件下持续提供高性能。评估鲁棒性通常涉及用扰动输入对代理进行压力测试——例如释义的指令、不相关或误导性的上下文，或语言变体如拼写错误和方言——以评估它是否仍能成功完成任务。例如，鲁棒性评估可能涉及对标准提示应用系统性转换，并测量由此导致的任务成功率或输出质量的下降。HELM 基准明确包含了此类测试，跟踪模型性能在输入变化下的退化情况。

鲁棒性还包括自适应恢复能力——代理从环境动态变化中恢复的能力。例如，WebLinX 检查了当网页结构在执行过程中发生变化时代理的行为。在这种情况下，一个有效的代理必须调整其策略，而不是停滞或失败。

在使用工具的代理中，鲁棒性进一步体现在错误处理能力上。正如 ToolEmu 的评估所证明的，代理必须能够优雅地响应工具故障或意外输出。鲁棒性测试可能包括故意注入故障——例如 API 错误或空响应——以观察代理是恢复（例如，重试、切换工具或向用户解释问题）还是崩溃。一个关键指标可能是被适当处理的诱发故障的比例，反映了代理在不确定或不完美条件下的可靠性。

3.4. 安全性与对齐

安全性涵盖了代理对道德准则的遵守、避免有害行为以及遵守法律或政策限制。随着 LLM 代理变得越来越强大和自主，意外不良后果（例如，生成虚假信息、仇恨言论或不安全的指令）的风险增加，使得安全评估不可或缺。这些评估在金融服务、网络安全和自主决策等领域尤其关键，因为代理的漏洞可能导致严重后果。

3.4.1. 公平性

AI 代理缺乏公平性和透明度可能导致有偏见的结果、降低用户信任并产生意想不到的社会后果。例如，在金融应用中，贷款审批或投资策略中的有偏见决策可能会加剧系统性不平等（FinCon , AutoGuide ）。在多代理交互中也会出现伦理问题，其中决策框架必须确保符合标准和社会规范。

可解释性在增强用户信任方面至关重要，尤其是在 AI 代理提供建议或自动化辅助的交互式系统中。诸如指南驱动的决策（AutoGuide ）和结构化透明度机制（MATSA , FinCon ）等方法为用户提供了清晰的推理路径。同时，Rjudge 分析了代理在做出自主决策时如何感知风险，强调了 AI 交互中的透明度和可信赖性。评估这些维度可确保 AI 代理在符合伦理标准的同时，在其操作环境中保持公平性。

3.4.2. 伤害、毒性与偏见

安全性的一个方面是确保代理的输出不包含有害内容，如仇恨言论、骚扰或极端偏见的陈述。毒性评估通常使用专门的测试集和指标，例如 RealToxicityPrompts 数据集 ——一个可能引发有毒内容的提示集合——其响应通过自动毒性检测器或人类评估员进行检查。指标包括包含有毒语言的响应百分比或平均毒性得分（由分类器给出）。HELM 将毒性和偏见指标作为整体评估的一部分，指示模型产生攻击性内容或表现出不希望的偏见的频率。对于交互式代理，可以通过给予挑衅性或伦理上具有挑战性的输入（红队测试）来评估它，然后测量其失败率（它以不安全方式响应的频率）。以安全为重点的数据集，如 CoSafe，正是针对这一点：Yu 等人引入 CoSafe 来评估对话代理在旨在诱使其违反安全规则的对抗性提示上的表现（例如，用户巧妙地询问自残建议或非法指令）。CoSafe 揭示了即使是高级代理也存在漏洞，例如会陷入基于共指的攻击（用户模糊地指代某物以绕过过滤器）。评估过程涉及在面对这些对抗性查询时监控代理的响应是否存在违反策略的情况。拥有一个数字分数（如“代理在 X% 的对抗性案例中产生了不允许的响应”）可以量化安全性。

3.4.3. 合规性与隐私

除了避免明显的毒性，许多部署要求代理遵守特定的监管或政策限制。例如，金融聊天机器人不得泄露机密信息或提供特定类型的财务建议，医疗助理不得偏离既定的医疗指南。评估合规性可能是高度领域特定的，因为它涉及旨在测试代理是否尊重界限的场景（例如，用户向医疗机器人询问处方药建议——正确、安全的行为是拒绝并建议咨询医生）。

在企业环境中，合规性评估可能需要反映实际政策的专有测试用例。一种方法是将这些关注点整合到评估框架中。例如，为企业提出的 HELM 基准包括了针对金融和法律等领域的领域特定提示和指标（例如，对金融术语的准确性或响应的合规性）。该过程涉及收集代表性的企业场景（可能包含机密或自定义数据）并设计反映现实世界成功标准的评估指标（例如，代理在其响应中是否遵循了所有法律免责声明要求？）。例如，TheAgentCompany 在结构化的正确性约束下评估企业 AI 代理，要求它们在完成任务时遵循预定义的组织策略。

4. 评估过程

4.1. 交互模式

评估 LLM 代理可以在各种交互模式和不同工具下进行。一个基本的区别是离线评估（使用预先生成、静态的数据集）和在线评估（涉及反应式模拟、人在回路或实时系统监控）。

4.1.1. 静态与离线评估

离线评估通常作为基线进行，依赖于数据集和静态测试用例：代表代理可能面临的挑战的任务、提示或对话的集合。模拟对话可用于帮助开发这些数据，但最终在不同运行之间是惰性的。尽管运行和维护相对便宜和简单，但离线评估通常缺乏充分处理 LLM 代理可能或预期提供的广泛响应的细微差别。因此，它们更容易出现错误传播，并且通常不是系统性能的准确表示。

4.1.2. 动态与在线评估

与其他机器学习系统一样，在线评估通常在 LLM 代理部署后进行。在线评估不依赖于合成、历史或手动制作的数据，而是利用模拟或基本的用户交互。这种自适应数据对于识别静态测试期间未发现的痛点和问题至关重要，并且通常富含领域上下文，而这些上下文更难用合成或通用基准来捕捉。动态评估可以使用代理来模拟用户或环境，以实时响应代理行为。例如，在评估网络代理时，研究人员构建了网络模拟器（MiniWoB , WebShop , WebArena 等），其中代理的行为（点击链接、填写表单）可以被编程以验证正确的序列。

评估驱动开发（EDD） 的概念也被提出，建议将评估作为代理开发周期的组成部分。它主张对代理进行持续评估，包括离线（开发期间）和在线（部署后），以检测回归并适应新的用例。他们进一步概述了一个参考架构，其中 AgentOps 组件监控生产中的代理性能，并向开发人员提供反馈。虽然这仍然是一个新兴的想法，但它强调了评估不是一次性任务，而是一个持续的过程，特别是对于学习或演进的代理。

4.2. 评估数据

对评估基于 LLM 的代理日益增长的兴趣，导致了针对第 3 节中讨论的代理能力的各种数据集、基准和排行榜的开发。这些资源中有许多旨在反映现实世界的复杂性，并使用人类注释、合成和交互生成的数据混合构建。例如，AAAR-1.0 、ScienceAgentBench 和 TaskBench 等数据集为评估研究推理、科学工作流和多工具规划提供了结构化的、专家标记的基准。其他的，如 FlowBench 、ToolBench 和 API-Bank ，则专注于跨大型 API 存储库的工具使用和函数调用。这些基准通常不仅包括黄金工具序列，还包括预期的参数结构，从而实现细粒度评估。

与此同时，像 AssistantBench 、AppWorld 和 WebArena 这样的数据集模拟了在网络和应用环境中更开放和交互式的代理行为。它们强调动态决策、长周期规划和用户-代理交互。一些基准也支持安全性和鲁棒性测试——例如，AgentHarm 评估潜在的有害行为，而 AgentDojo 评估对提示注入攻击的抵抗力。像伯克利函数调用排行榜（BFCL）和整体代理排行榜这样的排行榜通过提供标准化的测试用例、自动化指标（例如，AST 正确性、胜率）和排名机制来比较系统，从而整合了这些评估。

4.3. 指标计算方法

基于代码的方法是最确定和客观的方法。它依赖于明确的规则、测试用例或断言来验证代理的响应是否满足预定义的标准。这种方法对于具有明确定义输出的任务特别有效，例如数值计算、结构化查询生成或编程任务中的语法正确性。其主要优点是一致性和可复现性，使其在基准测试中高度可靠。然而，基于代码的方法通常不灵活。它们难以评估开放式或定性的响应，例如自然语言生成或创造性问题解决，其中正确性是主观的。尽管如此，它仍然是评估结构化任务（其中正确性有明确定义）的基本技术。

LLM-as-a-Judge 方法利用 LLM 的推理能力，根据定性标准评估代理响应，根据通过指令提供的标准评估响应。这种方法因其能够处理主观和细微的任务（如摘要、推理和对话交互）而受到关注。该方法的一个最新扩展是 Agent-as-a-Judge ，其中评估过程涉及多个 AI 代理交互以完善评估，从而可能提高评估的可靠性。这种方法具有高度可扩展性，并且可以适应复杂的任务。因此，它受到了越来越多的关注。

人在回路评估仍然是主观方面（如自然度和用户满意度）和安全关键判断的黄金标准。人类评估可以采取用户研究、专家审计（领域专家审查代理输出）或众包工作者注释（沿相关性、正确性和语气等维度对输出进行评级）的形式。这种方法在开放式任务（如内容生成、战略决策或对话连贯性）中提供最高的可靠性。然而，它昂贵、耗时且难以扩展，使其不适用于需要频繁评估的大规模自动化系统。

4.4. 评估工具

过程维度中一个值得注意的方面是支持自动化、可扩展和持续代理评估工作流的软件框架和平台的出现。这些工具能够将评估直接集成到开发生命周期中，反映了在代理构建中向评估驱动开发（EDD）发展的趋势。OpenAI Evals 是一个开源框架，允许开发人员为模型指定评估任务和指标，自动化执行和报告结果（尽管在学术文献中没有正式描述，但它反映了实际需求）。其他开源或商业工具，如 DeepEval 、InspectAI 、Phoenix 和 GALILEO ，提供了丰富的分析、评估编排和调试功能。此外，像 Azure AI Foundry 、Google Vortex AI 、LangGraph 和 Amazon Bedrock 这样的代理开发平台越来越多地集成评估功能，帮助开发人员监控性能、检测回归并使代理适应不断变化的用户需求。Xia 等人进一步提出了一个 AgentOps 架构，以持续监控已部署的代理，通过实时反馈和质量控制来闭合开发和部署之间的循环。

4.5. 评估上下文

评估上下文指的是执行评估的环境。与软件工程类似，在更真实（但通常更昂贵且可能安全性较低）和更简单、更受控（但通常对最终性能的代表性较差）的环境之间存在权衡。评估系统的上下文通常由系统的预期用途指导；一个没有编辑权限的简单 LLM 代理可以直接在其工作环境中进行测试，而一个设计用于与许多相互交织的系统一起工作并进行更改的 LLM 代理则可能在模拟的 API 或沙箱环境中进行评估。对于不那么封闭的系统，评估上下文可能采用网络模拟器的形式，例如 MiniWoB 、WebShop 或 WebArena 。随着代理的开发继续，评估上下文通常也随之演变，从较小的、模拟的 API 环境到随着代理性能和可信赖性确定后的实时部署。

5. 企业特有的挑战

随着基于 LLM 的代理从研究演示过渡到在企业环境中部署，新的挑战正在出现。企业通常要求高性能，同时要求可预测的可靠性、法规遵从性、数据安全性和可维护性，这些在评估中通常被忽视。为了解决这些差距，我们讨论了以下各节中概述的关注点，并勾勒了未来的方向。

5.1. 基于角色的访问带来的复杂性

在企业环境中评估基于 LLM 的代理的一个关键挑战是需要考虑基于角色的访问控制（RBAC），它管理用户访问数据和服务的权限。在这些环境中，用户根据其角色具有不同级别的访问权限，代表他们行事的代理必须遵守相同的约束。这给代理评估带来了复杂性，因为代理检索或操作信息的能力不是统一的，而是与用户的权限上下文相关的。

为了解决这个问题，一些评估框架已经开始在其设计中加入访问控制约束。例如，IntellAgent 包括需要验证用户身份并执行拒绝访问其他用户信息策略的评估任务。通过将特定角色的限制嵌入到任务生成中，这些方法更准确地模拟了代理在权限敏感的企业环境中的行为。

5.2. 可靠性保证

可靠性保证在企业环境中尤其重要，因为代理被期望在需要确定性或可重复行为且可解释的合规和审计框架内运行。在这种情况下，偶尔的成功是不够的；代理必须在时间和使用场景中可靠地执行，才能被认为是生产就绪的。

评估可靠性并非易事。因为基于 LLM 的代理本质上是随机的，测量一致性需要多次执行相同的任务并观察结果的变化。这带来了显著的评估开销：对每个输入进行多次试验可能计算成本高昂，尤其是在测试涉及工具、内存或多代理协调的复杂任务时。此外，为了得出有意义的结论，基准必须包括一个反映代理可能遇到的任务类型和条件的代表性数据集。

一些努力已经开始应对这一挑战。例如，τ-benchmark 明确地加入了 pass^k 指标来评估代理的一致性。通过将其应用于零售和航空预订等领域，作者表明当前的代理在一致性方面存在困难。

5.3. 动态和长周期交互

评估基于 LLM 的代理的一个主要挑战是评估它们在动态、不断变化的环境中执行长周期任务的性能。与大多数当前基准关注短片段或单次交互不同，现实世界的企业代理通常在与用户、系统和数据交互的同时，在较长时间内持续运行。

解决这一挑战对于理解代理随时间的行为至关重要，尤其是在企业环境中，可靠性、适应性和目标对齐在代理的整个生命周期中都至关重要。标准的、短期的评估无法捕捉到诸如性能漂移、上下文保持或决策对业务结果的累积效应等现象。

为了开始解决这个问题，一些研究工作已经引入了长期运行的模拟和扩展对话作为评估工具。例如，Park 等人在一个持续运行的模拟城镇环境中观察生成代理，以研究跨多日交互的涌现行为。同样，Maharana 等人通过 600 轮对话评估了长期对话记忆，重点关注代理在长时间对话中保持连贯性和上下文的能力。

5.4. 遵守领域特定的政策和合规要求

评估企业代理的另一个重大挑战是确保它们能够在领域特定的政策和合规约束下运行。企业通常强制执行严格的操作规则——例如审批工作流、数据保留政策、使用配额以及像 GDPR 或 HIPAA 这样的法律法规——代理在整个任务执行过程中必须遵守这些规则。在这种情况下评估代理需要的不仅仅是衡量任务成功；它要求验证代理行为是否符合正式的政策约束和法律合规标准。例如，一个生成财务报告的代理必须避免未经授权访问机密预测，并确保生成的内容符合监管报告标准。如果在评估期间没有对这些约束进行明确建模，那么在传统基准中被视为“正确”的代理仍可能因违反政策或合规风险而在生产中失败。

6. 未来研究方向

随着基于 LLM 的代理在复杂性和应用范围上持续增长，未来的研究必须朝着更鲁棒、实用和可扩展的评估方法论推进。我们强调了四个可以显著推动该领域的关键方向：

整体评估框架：当前的评估工作通常侧重于孤立的维度，如任务成功、规划质量或工具使用。然而，在实际应用中的代理必须同时平衡多种能力。未来的工作应该开发整体评估框架，在一个统一的协议内评估代理跨多个相互依赖的维度的性能。

更现实的评估设置：为了弥合实验室设置和生产环境之间的差距，代理评估必须朝着更现实的条件发展。这包括创建包含企业特定元素的评估环境，例如动态多用户交互、基于角色的访问控制和领域特定知识。这些设置可以通过真实世界的部署试验或通过模拟企业工作流的模拟环境来实现。

自动化和可扩展的评估技术：手动评估代理行为，尤其是在多轮或长周期场景中，成本高昂且难以扩展。未来的研究应该探索自动化评估方法，以减少人力并提高可复现性。这包括使用合成数据生成可控的测试用例，利用模拟环境来模拟任务上下文，以及推进基于 LLM 的评估技术，如 LLM-as-a-judge 或 Agent-as-a-judge。

有时间和成本限制的评估协议：评估必须是高效的，并且能够支持迭代的代理开发。当今的方法——特别是那些需要重复试验或人在回路评估的方法——可能既耗时又耗费资源。未来的研究应该旨在开发有时间和成本限制的评估协议，以在深度和效率之间取得平衡。

总之，未来的研究应侧重于开发整体、现实、可扩展和高效的评估方法。这些方向对于大规模构建可靠和可信赖的基于 LLM 的代理至关重要。

posted @ 2025-10-28 15:34 一介布衣、阅读(160) 评论(0) 收藏举报

刷新页面返回顶部

一介布衣、