论文阅读翻译之 Large Language Model Agent - A Survey on Methodology, Applications and Challenges
论文阅读翻译之 Large Language Model Agent - A Survey on Methodology, Applications and Challenges
关于
- 首次发表日期:2025-05-08
- 论文原文链接:https://arxiv.org/abs/2503.21460v1
- 翻译方法:机翻为主
- 如有错误,请不吝指出
- 注:仅翻译2.2小节
2.2 Agent Collaboration (智能体协作)
LLM 代理之间的协作在扩展其解决问题能力方面起着关键作用,这种能力超越了个体推理的局限。有效协作使代理能够利用分布式智能、协调行动,并通过多代理交互细化决策。我们将现有协作范式分为三类基本架构:集中控制、分布式协作和混合架构。这些范式在决策层级、通信拓扑结构和任务分配机制方面存在差异,每种架构在特定应用场景中具有独特优势。
2.2.2 Centralized Control (集中式控制)
集中式控制架构采用分层协调机制,其中中央控制器通过任务分配和决策整合来组织代理活动,而其他子代理只能与控制器通信。该范式包含两种实现策略: 显式控制器(explicit controller) 系统通过专用协调模块(通常以单独的LLM 代理来实现)分解任务并分配子目标,而差异化驱动(differentiation-based) 系统则通过提示词引导元代理(meta agent)承担不同子角色来实现集中式控制。集中式方法在需要严格协调的关键任务场景(如工业自动化和科学研究)中表现优异。
显式控制器系统。 已有多个相关研究工作被开发出来以显式实现集中式架构。Coscientist 是显式控制器范式的典型例证,其中人类操作员作为中央控制器。它建立标准化的科学实验工作流程,将专业代理和工具分配到不同的实验阶段,并对最终执行计划保持直接控制。LLM-Blender 显式创建了一个控制器,该控制器采用交叉注意力编码器进行成对比较以识别最佳响应,随后融合排名最高的响应,在增强其优势的同时缓解其弱点。MetaGPT 模拟真实世界软件开发工作流程,直接分配专业经理人控制不同的功能角色和阶段。
基于差异化的系统。 AutoAct 例证了这种差异化范式,它将元代理隐式区分为三个子代理—— 规划(plan)代理、工具(tool)代理和反思(reflect)代理,以分解复杂的 ScienceQA 任务。Meta-Prompting 通过精心设计的元提示将复杂任务分解为领域特定子任务。单一模型作为协调器,根据任务导向提示动态分配子任务给专业化子代理。中央管理器随后整合所有中间输出以生成最终解决方案。这些研究主要采用能力强大的代理作为中央控制器,以优化任务分配与决策聚合。然而,WJudge 表明即使判别能力有限的控制器也能显著增强代理系统整体性能。
2.2.2 Decentralized Collaboration (去中心化协作)
与集中式架构相比,集中式架构中单一控制节点通常会成为瓶颈,因为它需要处理所有智能体间的通信、任务调度和冲突解决,而去中心化协作通过自组织协议(self-organizing protocols)实现节点间的直接交互。这种范式可以进一步分为两种不同的方法:基于修订的系统(revision-based systems)和基于通信的系统(communication-based systems)。
基于修订的系统。 在此范式中,智能体仅观察由同行生成的最终决策,并通过结构化编辑协议(structured editing protocols)迭代优化共享输出。该方法通常产生更标准化和确定性的结果。例如,MedAgents 采用预定义的领域专家智能体,依次独立提出并修改决策,通过最终投票达成共识。ReConcile 通过相互响应分析、置信度评估和人工整理的示例协调智能体迭代优化答案。METAL 为图表生成任务引入专门的文本和视觉修订智能体,展示了领域特定优化如何提升输出质量。值得注意的是,修订信号可能不仅源自智能体交互,还可能来自外部知识库, 从而实现混合优化策略。
基于通信的系统。 与基于修订的方法相比,基于通信的方法具有更灵活的组织结构,允许智能体直接进行对话并观察同伴的推理过程。这使其特别适合建模动态场景(如人类社交互动)。关键实现包括:MAD 采用结构化通信协议解决“ 思维退化” 问题,即智能体过度执着于初始解决方案;MADR 通过使智能体能够批判不可信主张、完善论点并生成可验证的解释以进行事实核查来增强这一方法;MDebate 通过在顽固坚持有效观点与协作完善之间进行策略性交替来优化共识构建;AutoGen 实现了一个群聊框架,支持多智能体参与迭代辩论以优化决策。
2.2.3 Hybrid Architecture (混合架构)
混合架构战略性地结合集中式协调与分布式协作,以在可控性与灵活性之间取得平衡,优化资源利用率,并适应异构任务需求。该方法引入了两种实现模式:静态系统采用预定义的协调规则,以及动态系统具备自优化拓扑结构。
静态系统。 静态系统预定义用于组合不同协作模态的固定模式。代表性实现包括:CAMEL 将智能体划分为组内去中心化团队以进行角色扮演模拟,同时通过集中治理实现组间协调。AFlow 采用由集中式战略规划、去中心化战术协商和市场驱动的运营资源分配组成的三层架构。EoT 将四种协作模式(总线型(BUS )、星型(STAR )、树型(TREE )、环型(RING ))规范化,使网络拓扑与特定任务特性相匹配。
动态系统。 最新研究引入了神经拓扑优化器,能够根据实时性能反馈动态重新配置协作结构,从而实现自动适应变化的条件。关键实现展示了这一范式:DiscoGraph 通过师生框架引入可训练的位姿感知协作。具有全局视角输入( holistic-view inputs)的教师模型通过特征图蒸馏指导学生模型,同时矩阵化边权重实现智能体间的自适应空间注意力分配。DyLAN 首先利用 Agent Importance Score 识别贡献最大的智能体,然后动态调整协作结构以优化任务完成。MDAgents 根据当前任务动态分配协作结构。它首先执行复杂度检查,将任务分类为低、中或高复杂度。简单任务由单个智能体处理,而更复杂的任务则通过分层协作解决。
浙公网安备 33010602011771号