多智能体系统自动故障归因技术解析

"自动故障归因"是多智能体系统开发周期中的关键组成部分。它有望将识别"出了什么问题以及谁该负责"的挑战从一个令人困惑的谜团转变为一个可量化和可分析的问题。

研究背景与挑战

LLM驱动的多智能体系统在许多领域展现出巨大潜力。然而，这些系统很脆弱；单个智能体的错误、智能体之间的误解或信息传输中的错误都可能导致整个任务的失败。

目前，当系统失败时，开发人员通常只能采用手动且低效的调试方法：

这种"大海捞针"的调试方法不仅效率低下，而且严重阻碍了系统的快速迭代和系统可靠性的提高。迫切需要一种自动化、系统化的方法来精确定位故障原因，有效弥合"评估结果"与"系统改进"之间的差距。

本文针对上述挑战做出了几项突破性贡献：

定义新问题：本文首次将"自动故障归因"形式化为一个具体的研究任务。该任务定义为识别导致任务失败的负责智能体和决定性错误步骤。
- 谁：负责故障的智能体
- 何时：发生决定性错误的具体交互步骤
- 为什么：故障原因的自然语言解释
探索初始"自动归因"方法：使用Who&When数据集，本文设计并评估了三种不同的自动故障归因方法：
- 一次性方法：向LLM提供用户查询和完整的故障日志，要求其一次性识别负责智能体和决定性错误步骤。虽然成本效益高，但在长上下文中可能难以精确定位错误。
- 逐步方法：通过让LLM顺序审查交互日志，模仿手动调试，在每一步做出判断直到找到错误。在定位错误步骤方面更精确，但成本更高且存在错误累积风险。
- 二分搜索方法：前两种方法之间的折衷，该策略反复将日志分成两半，使用LLM确定哪个段包含错误。然后递归搜索识别的段，在成本和性能之间提供平衡。

实验在两种设置下进行：一种是LLM知道多智能体系统试图解决的问题的正确答案（有真实答案），另一种是不知道（无真实答案）。主要使用GPT-4o模型，但也测试了其他模型。在Who&When数据集上对这些方法的系统评估得出了几个重要见解：

任重道远：当前方法远非完美。即使是性能最佳的单方法，在识别负责智能体方面的准确率仅为约53.5%，在精确定位确切错误步骤方面仅为14.2%。某些方法的表现甚至比随机猜测更差，突显了该任务的难度。
没有"万能"解决方案：不同方法在问题的不同方面表现出色。一次性方法更擅长识别"谁"，而逐步方法更有效地确定"何时"。二分搜索方法提供中等性能。
混合方法有前景但成本高：研究人员发现，结合不同方法，例如使用一次性方法识别潜在智能体，然后应用逐步方法查找错误，可以提高整体性能。然而，这会显著增加计算成本。
最先进模型仍感困难：令人惊讶的是，即使是最先进的推理模型，如某机构的o1和某机构的R1，也发现此任务具有挑战性。这突显了自动故障归因的固有难度，它需要比传统任务更高水平的推理能力。
显式推理的重要性：在一次性和逐步方法中，提供要求LLM解释其推理的显式提示被证明可以提高性能。
上下文长度是限制因素：研究还显示，随着故障日志上下文长度的增加，所有归因方法的性能往往会下降，对识别错误步骤准确性的影响更为明显。

该论文已被顶级机器学习会议ICML 2025接受为焦点演讲，代码和数据集现已完全开源。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码

posted @ 2025-11-28 19:14 CodeShare 阅读(21) 评论(0) 收藏举报

刷新页面返回顶部