多智能体系统自动故障归因技术解析

多智能体系统自动故障归因技术解析

"自动故障归因"是多智能体系统开发周期中的关键组成部分。它有望将识别"出了什么问题以及谁该负责"的挑战从一个令人困惑的谜团转变为一个可量化和可分析的问题。

研究背景与挑战

LLM驱动的多智能体系统在许多领域展现出巨大潜力。然而,这些系统很脆弱;单个智能体的错误、智能体之间的误解或信息传输中的错误都可能导致整个任务的失败。

目前,当系统失败时,开发人员通常只能采用手动且低效的调试方法:

  • 手动日志考古:开发人员必须手动审查冗长的交互日志以找到问题根源
  • 依赖专业知识:调试过程高度依赖开发人员对系统和任务的深入理解

这种"大海捞针"的调试方法不仅效率低下,而且严重阻碍了系统的快速迭代和系统可靠性的提高。迫切需要一种自动化、系统化的方法来精确定位故障原因,有效弥合"评估结果"与"系统改进"之间的差距。

核心贡献

本文针对上述挑战做出了几项突破性贡献:

  1. 定义新问题:本文首次将"自动故障归因"形式化为一个具体的研究任务。该任务定义为识别导致任务失败的负责智能体和决定性错误步骤。

    • :负责故障的智能体
    • 何时:发生决定性错误的具体交互步骤
    • 为什么:故障原因的自然语言解释
  2. 探索初始"自动归因"方法:使用Who&When数据集,本文设计并评估了三种不同的自动故障归因方法:

    • 一次性方法:向LLM提供用户查询和完整的故障日志,要求其一次性识别负责智能体和决定性错误步骤。虽然成本效益高,但在长上下文中可能难以精确定位错误。
    • 逐步方法:通过让LLM顺序审查交互日志,模仿手动调试,在每一步做出判断直到找到错误。在定位错误步骤方面更精确,但成本更高且存在错误累积风险。
    • 二分搜索方法:前两种方法之间的折衷,该策略反复将日志分成两半,使用LLM确定哪个段包含错误。然后递归搜索识别的段,在成本和性能之间提供平衡。

实验结果与关键发现

实验在两种设置下进行:一种是LLM知道多智能体系统试图解决的问题的正确答案(有真实答案),另一种是不知道(无真实答案)。主要使用GPT-4o模型,但也测试了其他模型。在Who&When数据集上对这些方法的系统评估得出了几个重要见解:

  • 任重道远:当前方法远非完美。即使是性能最佳的单方法,在识别负责智能体方面的准确率仅为约53.5%,在精确定位确切错误步骤方面仅为14.2%。某些方法的表现甚至比随机猜测更差,突显了该任务的难度。

  • 没有"万能"解决方案:不同方法在问题的不同方面表现出色。一次性方法更擅长识别"谁",而逐步方法更有效地确定"何时"。二分搜索方法提供中等性能。

  • 混合方法有前景但成本高:研究人员发现,结合不同方法,例如使用一次性方法识别潜在智能体,然后应用逐步方法查找错误,可以提高整体性能。然而,这会显著增加计算成本。

  • 最先进模型仍感困难:令人惊讶的是,即使是最先进的推理模型,如某机构的o1和某机构的R1,也发现此任务具有挑战性。这突显了自动故障归因的固有难度,它需要比传统任务更高水平的推理能力。

  • 显式推理的重要性:在一次性和逐步方法中,提供要求LLM解释其推理的显式提示被证明可以提高性能。

  • 上下文长度是限制因素:研究还显示,随着故障日志上下文长度的增加,所有归因方法的性能往往会下降,对识别错误步骤准确性的影响更为明显。

该论文已被顶级机器学习会议ICML 2025接受为焦点演讲,代码和数据集现已完全开源。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-11-28 19:14  CodeShare  阅读(21)  评论(0)    收藏  举报