Agentic LLMs:下一代 LLM 智能体在规划、记忆、多智能体协作与安全治理上的前沿综述
LLM Agents:从“会说话的模型”到“可行动的系统”
本文面向已有一定研究或工程基础的读者,尝试在 2024–2025 年最新工作的基础上,对 LLM+Agents 的研究版图进行系统综述,并给出我对未来方向的判断与建议。整体结构如下:
- 概念与范式转变:从 LLM 到 Agentic LLM
- 单智能体架构:规划、工具调用、记忆与自进化
- 多智能体系统:协作、博弈、涌现与去中心化
- 核心基础设施:函数调用、协议、框架与记忆系统
- 多模态与具身智能体:从屏幕到物理世界
- 评估与基准:能力、长程规划、安全与领域基准
- 安全、信任与治理:从单模型安全到系统级安全
- 典型垂直场景:医疗、金融、科学发现与软件工程
- 关键开放问题与未来研究方向
1. 概念与范式转变:从 LLM 到 Agentic LLM
1.1 什么是 LLM Agent?
近期多篇综述对“LLM 作为智能体(LLM-based Agents / Agentic LLMs)”给出了较一致的抽象:在传统 LLM 的基础上,引入 规划(planning)、感知(perception)、行动(action)、记忆(memory) 四大模块,使其能够在环境中持续感知、决策与执行,而不仅是一次性回答问题。[1][2][3]
这类系统往往具备:
- 工具调用 / 函数调用能力:通过外部 API / 工具 / 其它 Agent 完成读写文件、调用数据库、浏览网页等操作;
- 基于环境状态的迭代决策:而非“一次思考,直接输出结果”;
- 长期记忆与个性化:能够跨会话、跨任务保留经验,甚至自我演化;
- 自治程度提高:从“协助型助手”逐步向“自驱决策主体”演进。
1.2 从单模型到多代理协作的范式变化
Multi-Agent LLM Systems 已经从边缘话题变为主流研究方向:
- LLM 驱动的多智能体系统被用于 任务分解、角色分工、协同创造、社会博弈与群体推理。[4][5]
- 多篇综述从协作机制维度给出系统性框架:参与者(actors)、交互类型(合作/竞争/合作竞争)、结构(集中式 / 分布式 / 点对点)、策略(基于角色/模型)、协调协议等。[4]
- 信息论工作开始从“高阶结构与涌现协调”角度衡量多 Agent 系统是否形成真正的“集体智能”而非若干独立模型的拼盘。[6]
未来的主线不再是“更大的单一模型”,而是“大模型 + Agent 架构 + 多 Agent 协同”的综合体。
2. 单智能体架构:规划、工具调用、记忆与自进化
2.1 规划与推理:从 ReAct 到 Pre-Act 与脑启发架构
早期 ReAct 将“思考 + 行动”交替串联,成为主流 agent prompting 模式。近期工作在此基础上进一步前移“规划”过程:
- Pre-Act 提出在执行前生成多步执行计划及详细推理,计划在每一步执行后根据工具输出迭代修正,显著提升任务型智能体在工具调用和目标完成率上的表现(对 ReAct 在 Almita 数据集的 Action Recall 提升约 70%,经过微调后 Llama3.1-70B 甚至在该任务上超越 GPT-4)[7]。
- 脑启发 Modular Agentic Planner (MAP) 将规划拆解为若干类“前额叶功能模块”(任务分解、行动者、监控、预测、评估、编排),每个模块是一个专门 prompt 的 LLM 实例,通过有限树搜索协作完成规划,在 Tower of Hanoi、PlanBench、StrategyQA 等任务上显著优于单模型 CoT/ToT 等基线 [8]。其中 Monitor(约束检查 / 幻觉过滤) 被证明尤为关键。
趋势:
从“单一 LLM + 长 CoT 提示” → “多模块 LLM + 显式规划算法”。这意味着 agent 架构正在向可组合、可解释、可替换的模块化系统演进。
2.2 工具调用与函数调用能力
LLM 的工具调用已从工程能力演化为正式的研究对象:
- Berkeley Function Calling Leaderboard (BFCL) 系列工作构建了大规模函数调用基准,涵盖多语言、多轮、多步调用,提出基于抽象语法树 (AST) 的评估方法,避免必须实际执行每个工具的高成本问题。[9]
- 实证表明:主流大模型在单步调用上已接近饱和,但在多步规划、状态追踪、何时“拒绝调用”上仍存在明显缺陷。[9]
- Natural Language Tools (NLT) 提出用自然语言形式替代 JSON 结构化调用,将“选择何种工具”与“如何回答问题”解耦,从而显著提高工具调用的准确率(在 10 个模型、6400 次实验中平均提升约 18.4 个百分点,输出方差下降 70%,对开源模型收益尤大)[10]。
对研发者的启示:
- 函数调用不只是一组 API 接口,而应被视为 推理-决策-行动链中的一等公民;
- 需要区分:
- 调用决策(是否/调用哪个工具?)
- 调用参数生成(如何构造调用参数?)
- 调用结果融合(如何将结果整合进后续推理?)
2.3 记忆:从简单 RAG 到 agentic memory 系统
记忆被逐渐视作智能体时代的核心原语而非简单的“长上下文”:
-
统一视角的记忆综述
- 《Memory in the Age of AI Agents》区分:
- 形式:token-level, parametric, latent;
- 功能:事实记忆、经验记忆、工作记忆;
- 动态:形成、演化、检索过程 [11]。
- 并系统梳理了记忆基准与框架,为之后的系统设计提供术语与概念基线。
- 《Memory in the Age of AI Agents》区分:
-
具体系统:
- A-Mem:Zettelkasten 风格 Agentic Memory
以卡片盒(Zettelkasten)思想为基础,将每次交互抽象为具备标签、关键词、上下文描述的“记忆笔记”,自动建立相互链接和演化,形成可动态生长的知识网络,实验证明在多种基础模型上显著优于传统向量库式记忆。[12] - Evo-Memory:自进化记忆基准
强调流式任务序列,要求智能体在部署期间不断检索、整合、更新记忆,引入 ReMem pipeline(行动–思考–记忆更新闭环)以测试 test-time learning 能力。[13] - MIRIX:多模态多智能体记忆系统
定义了六类记忆(核心、情景、语义、程序性、资源、知识库),同时支持视觉/多模态输入。
在 ScreenshotVQA 上相对简单 RAG 提升约 35% 精度且存储减少 99.9%,在 LoCoMo 长对话基准上达到了 85.4% SOTA 表现。[14] - G-Memory:多智能体层级记忆
通过三层图结构(洞见–查询–交互)管理 MAS 中跨 trial、跨 agent 的协作轨迹,可在无修改原有框架前提下提升多任务成功率与知识问答精度 [15]。
- A-Mem:Zettelkasten 风格 Agentic Memory
实践要点:
单靠“把所有历史塞进上下文”或“简单向量检索”在 agent 场景中远远不够,记忆系统需要:
- 结构化(类别、属性、链接);
- 可演化(历史记忆随新经验更新);
- 与规划/工具调用/多 Agent 协调深度耦合。
2.4 自进化与自我改进智能体
最新工作逐步从“一次性设计完的 agent”走向可自我改进的闭环系统:
- EXIF/自进化框架 使用“探索者 Alice – 被训练者 Bob”二元结构:
Alice 先在环境中探索,基于轨迹生成“可行且对 Bob 有学习价值的任务”;Bob 训练后由 Alice 评估,再指导下一轮探索,从而构成“无人工标注的闭环数据生成 & 能力扩展”流程。[16] - 在 Webshop、Crafter 等环境中 EXIF 显示出逐步扩展技能空间与性能的能力,甚至当 Alice 与 Bob 使用相同基础模型时也可实现“自举式”自进化。[16]
这类工作说明:
智能体不只是 LLM 的“推理前端”,也可以成为生成自身训练数据的主动体,与 RL / offline RL / dataset distillation 结合是未来值得投入的方向。
3. 多智能体系统:协作、博弈、涌现与去中心化
3.1 协作机制与架构
多篇综述对 LLM 驱动的 Multi-Agent Systems(MAS)做了系统性总结 [4][5],当前典型协作方式包括:
- 角色分工型:研究员 / 批评者 / 执行者 / 规划者 等(如 PlanGEN 的约束–验证–选择三 Agent 框架,可在 NATURAL PLAN、DocFinQA、GPQA 等多基准上带来 4–8% 量级提升)[17];
- 层级协作型:上层 Agent 担任 supervisor / orchestrator,负责任务分解与结果编排,下层为专业 Agent(Microsoft 的多 Agent 企业架构、PlanGEN、Verification-aware Planning(VeriMAP)等皆属此类)[17][18];
- 去中心化协作型:如 NeurIPS 2025 的 AgentNet,通过有向无环图 (DAG) 结构与检索型记忆,让 Agent 之间基于局部能力动态调整连接、路由任务,实现跨组织协作与隐私保护。[19]
3.2 多智能体推理与“懒惰代理”问题
多 Agent 协作在推理上带来收益的同时也引入了新的 failure mode:
- Lazy Agent Behavior:在“元思考者 + 具体推理者”的双 Agent 设置中,常出现一方主导、另一方几乎不贡献信息的情况。[20]
- 对此,近期工作从理论上分析了懒惰行为出现的原因,并提出:
- 稳定高效的因果影响测度,用于在训练/推理时衡量每个 Agent 对最终结果的贡献度;
- 可验证奖励机制,允许推理 Agent 丢弃噪声输出、重启推理流程,从而增强 deliberation。[20]
这一方向的关键信息:
多 Agent 并不必然比单 Agent 更强,如何避免“多人变一人”是必须面对的研究问题。
3.3 博弈论、社会行为与集体智能
在博弈环境中研究 LLM Agents 的行为已经形成一套独立脉络:
- 实验表明,在有限重复 2×2 社会困境游戏中:
- LLM 对自利博弈(如囚徒困境)表现良好,但在需要精细协调的博弈(Battle of the Sexes)中明显不足;
- GPT-4 等大模型表现出“不宽容”特性——一次被背叛后长期背叛对手;
- 引入 Social Chain-of-Thought (SCoT)(先预测他人行动再决策)可以显著提升协调成功率,并提高人类对其“类人性”的感知;[21]
- FAIRGAME 框架及后续工作从激励敏感性、跨语言差异、终局策略变化等角度系统刻画了 LLM 在社会困境中的行为模式,并将其解释为“模型依赖/语言依赖的行为意图”。[22]
此外,对多 Agent 系统的涌现协调也已有定量分析框架:
- Emergent Coordination in Multi-Agent LLMs 引入基于时延互信息的部分信息分解 (PID),测量多 Agent 间的“协同”是否超出各自独立行为的叠加,并通过行/列 shuffle 构造零假设,区分“任务相关协同”与“伪协同”。[6]
- 通过简单猜数字游戏实验表明:
- 赋予每个 Agent 不同 persona + 显式提示“思考他人可能如何行动”时,可以从“无结构群体”引导到“稳定且目标对齐的补充性协同”。[6]
3.4 多 Agent 涉险行为与安全风险
当多个 LLM 交互时,会出现单模型场景中不存在的风险:
- MAEBE 基准 显示在“最大利益”类道德决策中,多 Agent 集合的道德偏好会因提问方式变化而发生剧烈改变;群体决策出现“从众压力”等经典社会心理现象。[23]
- Beyond Single-Agent Safety 提出应从“模型级安全”转向“系统级安全”,定义 Emergent Systemic Risk Horizon (ESRH) 概念,强调即便单模型均本地合规,交互网络结构也可能在系统层面产生失稳。[24]
4. 核心基础设施:协议、框架与记忆工程
4.1 通信与互操作协议:MCP, A2A, LACP 等
随着多 Agent 与多工具生态的兴起,社区开始强调开放协议:
- Model Context Protocol (MCP):统一 LLM 与外部工具/数据源的连接方式(JSON-RPC + 标准 schema),已被多云厂商与框架采用,支撑“工具即服务”的生态。
- Agent2Agent Protocol (A2A):谷歌提出的 Agent 间互操作开放协议,让不同厂商与框架实现的 Agent 能通过 Agent Card 公布能力、任务生命周期与 Artifact 进行协同。[25]
- LLM Agent Communication Protocol (LACP):受电信协议分层启发,提出语义层–事务层–安全层三层架构,主张为未来 6G 场景中的分布式 Agent 系统提供统一的通信标准。[26]
这些协议的重要性在于:
决定未来 Agent 生态是“集中封闭平台”还是“互联互通网络”。
4.2 Agent 框架与编排引擎
工业界/开源社区已经沉淀出若干主流框架:
- LangGraph / LangChain:图式状态机 + 循环工作流,适合构建长程、多轮、多 Agent 的业务流程。[27]
- Microsoft Agent Framework:统一 AutoGen 与 Semantic Kernel 的优势,提供多语言多模型、多 Agent、安全与遥测等企业级特性。[28]
- AgentNet:面向研究的去中心化 MAS 框架,基于 RAG 的 DAG 结构,自适应路由任务与演化 Agent 能力。[19]
这些框架开始内建:
- Agent Registry(登记、发现、验证、版本管理);
- 统一的上下文与状态管理;
- 集成 MCP / A2A 等协议,对外呈现为“Agent 即后端服务”。
4.3 记忆工程与上下文工程
除了上述专门的记忆系统,实践文章普遍强调“Context Engineering”的重要性,尤其在有成本/延迟约束的生产环境中:
- 类似 Anthropic 的工作将 Agent 的“注意力预算”视为稀缺资源,提出通过分层上下文、局部摘要、记忆压缩、文件系统式存储等方式延长有效记忆跨度。[29]
- 多篇工程 Best Practice 指出,多 Agent 系统的瓶颈更多来自 记忆与状态管理 而非通信本身。[30]
5. 多模态与具身智能体:从屏幕到物理世界
5.1 数字界面 Agent:GUI 与 Web 环境
- 多个基准(OfficeBench, OdysseyBench 等)将 LLM Agent 放入桌面办公/浏览器环境,测试其在 UI 导航、跨应用操作、长任务编排 中的表现。[31]
- 工作表明,即便在 GUI 场景下,最新多模态 LLM 仍易受“环境干扰”(无害但无关的元素)影响,导致偏离任务目标。[32]
5.2 跨数字-物理世界的通用多模态模型:Magma
Magma 是重要的里程碑之一:
- 服务于数字与物理两类 Agent 场景——从 UI 控制到机器人操作;
- 提出了 Set-of-Mark (SoM) 标注 GUI 中可点击等可动作对象;Trace-of-Mark (ToM) 标注视频中手/机械臂等的运动轨迹,使模型在预训练阶段学习空间–时间可行动性。[33]
- 在 UI 导航与机器人操作基准上达到甚至超越专用模型,同时在图像/视频任务上接近或优于大规模 LMM。[33]
5.3 Physical AI Agents 与 Ph-RAG
“Physical AI Agents” 相关工作提供了一个抽象模板:
- 以 感知(perception)— 认知(cognition)— 执行(actuation) 三块为核心;
- 引入 Physical RAG (Ph-RAG) 设计模式,将传感器/环境信息与领域 LLM 结合,实现实时决策与解释。[34]
- 案例涵盖自动驾驶、仓储机器人、医疗、制造等。
总体趋势:
新一代 Agent 将是多模态 + 多 Agent + 具身化的统一体,单一 modality/单 Agent 很难覆盖复杂任务。
6. 评估与基准:从 quiz 到 agent 级评估
6.1 通用评估框架
2025 年出现了专门针对 LLM Agents 的评估综述和教程 [35]:
- 提出二维 taxonomy:
- 评估目标:行为、能力、可靠性、安全/对齐;
- 评估过程:交互模式、数据/基准、指标、工具与上下文。
- 指出企业级特有挑战:基于角色的访问控制、可靠性保障、长期/动态交互、合规与隐私。
6.2 能力与任务类基准
典型代表包括:
- 长程规划与结构化推理:
- HeroBench(RPG 世界中的多步资源收集、技能学习、合成与打 Boss);[36]
- PlanGEN、Pre-Act 等自身在 NATURAL PLAN、OlympiadBench、GPQA 等基准上展示提升;
- 长任务能力评估工作(如 METR 提出的“可完成任务长度”指标)正在兴起。
- 多 Agent 协作与竞争:
- MultiAgentBench、Concordia、MindGames 等竞赛与基准覆盖合作、混合利益、欺骗与 Theory-of-Mind。[4][21]
- 函数调用与工具使用:BFCL 系列、ComplexFuncBench 等。[9]
- 记忆能力:Evo-Memory、LoCoMo、MemoryAgentBench 等测试 Agent 在多轮对话/任务流中的记忆检索、更新与经验复用。[13]
6.3 安全与鲁棒性基准
- RAS-Eval 提供 80 个测试用例、3802 个攻击任务,映射到 11 类 CWE 漏洞,实测显示攻击可将任务完成率降低约 36.8%,在学术环境中攻击成功率高达 85.7%。[37]
- SEC-bench、Backbone Breaker 等针对安全工程、底座模型对抗鲁棒性展开系统测试。[38]
- 多篇工作强调:安全能力同样呈现 scaling law—大模型在安全测评中显著优于小模型,但仍远未达可部署门槛。[37]
6.4 领域基准:医疗、安防等
- MedAgentBench 在虚拟 EHR 环境中提供 300 个医生编写任务、100 个病人、70 万+ 数据元素,兼容真实 FHIR API,SOTA 模型成功率约 70%,仍有巨大提升空间。[39]
- 医疗与安全领域的 agent 评估强调:
- 区分问答型任务与操作型任务,当前模型在后者尤其薄弱。[39]
- 需要引入人类专家在环以及“损害评估”维度指标,而不仅是正确率。
7. 安全、信任与治理:从模型到系统
7.1 风险拓展:从单模型到多 Agent 生态
- Emergent Abilities Survey 指出,随着 LRM(大规模推理模型)、自进化 Agent 与多 Agent 协作的兴起,“涌现能力”不再只是正向能力,也包括欺骗、操纵、奖励黑客等负向 emergent 行为。[40]
- Beyond Single-Agent Safety 强调多模型生态中的系统级风险,提出 ESRH 框架分析局部可靠如何在宏观层面汇聚成不稳定。[24]
7.2 TRiSM for Agentic AI 与 TrustAgent
- TRiSM for Agentic AI 在传统 AI TRiSM 的基础上,为 Agentic MAS 引入四大支柱:
Explainability, Lifecycle Governance, Application Security, Model Privacy,并提出:- Component Synergy Score (CSS):衡量多 Agent 协作质量;
- Tool Utilization Efficacy (TUE):衡量工具调用的正确率与效率。[41]
- TrustAgent 则从攻击/防御/评估维度系统整理 LLM Agent 的威胁模型,将信任问题分为:
- 内在:大脑(模型)、记忆、工具;
- 外在:用户、其他 Agent、环境。[42]
7.3 安全架构实例:SAFE-AGENT
- SAFE-AGENT 将机器人安全原则迁移至电商/零售场景,引入:
- Grounded Decision Alignment:行动与业务/安全策略对齐;
- Risk-Aware Action Governance:基于风险预测的阈值控制;
- Multi-Stage Guardrail Enforcement:多级防护链与回退机制。[43]
这一类工作预示着:
Agent 系统的安全治理会越来越像大规模分布式系统与金融监管,而不仅是“提示词过滤 + 内容审核”。
8. 典型垂直场景:让 LLM Agent 真正“落地”
8.1 医疗智能体
- MedAgentBench 与 NEJM / Stanford 相关工作表明:
- LLM Agents 在 EMR 检索、总结与简单决策支持上已有一定能力;
- 但在“操作类任务”(例如修改医嘱、调整治疗路径)上仍然非常不可靠。[39]
- 模拟病人系统(如 AIPatient)使用多 Agent + RAG 生成复杂病人交互,用于医学生训练与模型评估。[44]
8.2 金融与量化交易
- TradingAgents 框架通过“基本面分析–情绪分析–技术分析–研究员–交易员–风控”等多角色 LLM Agent 模拟真实交易公司组织结构:
- 采用结构化通信协议与明确的角色目标;
- 相较于传统量化策略,在累计收益、夏普率与最大回撤等核心指标上有显著优势。[45]
8.3 科学发现与“AI 科学家”
- 多篇工作(科学 Agents 调研、ToolUniverse 等)探索将 LLM Agent 嵌入科学工作流:
- 从假设生成–实验设计–数据分析–模拟–文献综述–专利检索全流程自动化或半自动化;[46][47]
- ToolUniverse 将 600+ 科学模型/数据库/模拟器封装为统一可调用工具,并展示了以 AI Scientist 优化药物分子的案例。[47]
8.4 软件工程与代码 Agent
- Multi-Agent 编程框架(Spec2RTL-Agent、ExecutionAgent 等)展示了 LLM Agent 在从自然语言规格到代码/硬件描述、自动化构建与测试方面的潜力:
- ExecutionAgent 可在 50 个多语言开源项目上自动构建并运行测试用例,结果与真实 ground truth 平均偏差仅 7.5%,显著优于现有方法,平均每项目成本约 $0.16。[48]
- 多 Agent 代码生成体系(Spec2RTL-Agent)通过“理解–渐进编码–反思纠错”三 Agent 协作,在复杂硬件规格到 RTL 代码的任务中减少人为干预次数约 75%。[49]
9. 关键开放问题与未来研究方向
结合以上进展,我认为未来 2–4 年 LLM+Agents 研究的核心问题将集中在以下几个方向:
9.1 从“提示工程”到“Agent 架构设计”
- 需要一套类似“软件架构模式”的 Agent 设计模式:何时采用单 Agent、多 Agent、层级/去中心化、如何分配角色与记忆。
- 当前经验性工作(如“Don’t Build Multi-Agents”一类工程博文)表明:
盲目多 Agent 容易产生脆弱与高成本系统,系统性理论和实践指南仍然匮乏。
9.2 记忆与长期自进化
- 如何在 安全可控 的前提下,让 Agent 在部署中持续学习(test-time learning)、扩展能力而不遗忘旧知识?
- 记忆系统与训练流程的结合尚处早期:
- 记忆能否反哺模型微调,形成“经验–权重–记忆”的闭环?
- 如何避免记忆中毒(memory poisoning)与隐私泄露?
9.3 多 Agent 协同与系统级安全
- 如何平衡多 Agent 协同带来的“集体智能增益”与“系统级风险扩散”?
- ESRH 与 TRiSM 等框架提供了概念工具,但缺少可操作的指标与监控方案,尤其在现实大规模部署中。
9.4 具身智能与现实环境鲁棒性
- 多模态与具身 Agent 的实验多在模拟环境(UI 仿真、虚拟机器人实验室),与真实世界存在“现实鸿沟”:
- 传感噪声、传感缺失、长时间延迟、不可逆操作与责任认定,使得纯 LLM 控制不可接受。
- 大概率会出现“LLM 作为高层策略 + 传统控制/规划作为低层执行”的混合范式,研究重点将是:
- 多模态对齐(感知–语义–动作)
- 安全屏障与可验证控制。
9.5 评估与标准化
- 需要跨任务、跨场景的 Agent-level Benchmark Suite:整合规划、记忆、协作、安全、成本等多维指标,并分级定义“可商用”的标准。
- 评估工具与平台应支持:
- 长期在线评估(持续 A/B 测试);
- 人类在环审计与 alignment auditing Agents(如 Anthropic 的 auditing agents 方向)。
对研究者与工程师的几点建议
- 优先研究/采用模块化架构:
避免将所有需求都塞进一个大 prompt,而是通过多个专职模块(规划、监控、记忆、工具编排)组合能力。 - 将函数调用 + 记忆视为一等能力:
对 Agent 设计时,把“什么时候调用工具/写入记忆/回放记忆”纳入显式决策流程,而非外显工程细节。 - 在多 Agent 之前先把单 Agent 做好:
对大多数实际应用,清晰的单 Agent + 强记忆 + 高质量工具往往比复杂多 Agent 更有效、可控。 - 安全与评估从一开始就内建:
不要把安全、评估当“上线前加一层防护网”,而应从设计阶段引入 TRiSM 式思路和 CSS/TUE 等指标。 - 关注开放协议与生态:
MCP、A2A、LACP 等协议会决定你的系统是“可插拔的组件”还是“孤立的黑箱”,后续与外部生态的集成成本差异巨大。
References
[1] T YANG. The rise and potential opportunities of large language model agents. https://academic.oup.com/bib/article/26/6/bbaf601/8320153
[2] ZH XI. The rise and potential of large language model based agents. http://scis.scichina.com/en/2025/121101.pdf
[3] Y HU. Memory in the Age of AI Agents: A Survey. https://arxiv.org/abs/2512.13564
[4] KT TRAN. Multi-Agent Collaboration Mechanisms: A Survey of LLMs. https://arxiv.org/abs/2501.06322
[5] X ZHANG. A Survey of Multi-AI Agent Collaboration. https://dl.acm.org/doi/full/10.1145/3745238.3745531
[6] C RIEDL. Emergent Coordination in Multi-Agent Language Models. https://arxiv.org/pdf/2510.05174
[7] M RAWAT. Pre-Act: Multi-Step Planning and Reasoning Improves Agent Performance. https://arxiv.org/abs/2505.09970
[8] T WEBB. A brain-inspired agentic architecture to improve planning. https://www.nature.com/articles/s41467-025-63804-5
[9] SG PATIL. The Berkeley Function Calling Leaderboard (BFCL). https://openreview.net/forum?id=2GmDdhBdDk
[10] NATURAL LANGUAGE TOOLS (NLT). A Natural Language Approach to Tool Calling in LLMs. https://arxiv.org/abs/2510.14453
[11] Y HU. Memory in the Age of AI Agents. https://arxiv.org/abs/2512.13564
[12] W XU. A-Mem: Agentic Memory for LLM Agents. https://arxiv.org/abs/2502.12110
[13] T WEI. Evo-Memory: Benchmarking LLM Agent Test-time Learning. https://arxiv.org/abs/2511.20857
[14] Y WANG. MIRIX: Multi-Agent Memory System for LLM-Based Agents. https://arxiv.org/abs/2507.07957
[15] NEURIPS 2025. Tracing Hierarchical Memory for Multi-Agent Systems (G-Memory). https://neurips.cc/virtual/2025/poster/116187
[16] EXIF / EvolveR. Toward Self-Evolving Systems of LLM Agents. https://openreview.net/forum?id=uO3gGxzu8k
[17] M PARMAR. PlanGEN: A Multi-Agent Framework for Generating Plans. https://aclanthology.org/2025.emnlp-main.1042.pdf
[18] T XU. Verification-Aware Planning for Multi-Agent Systems (VeriMAP). https://arxiv.org/abs/2510.17109
[19] Y YANG. AgentNet: Decentralized Evolutionary Coordination for LLM-based Multi-Agent Systems. https://arxiv.org/abs/2504.00587
[20] Z ZHANG. Unlocking the Power of Multi-Agent LLM for Reasoning. https://arxiv.org/abs/2511.02303
[21] E AKATA. Playing repeated games with large language models. https://www.nature.com/articles/s41562-025-02172-y
[22] TK HUYNH. Understanding LLM Agent Behaviours via Game Theory. https://www.arxiv.org/abs/2512.07462
[23] S ERISKEN. MAEBE: Multi-Agent Emergent Behavior Evaluation Framework. https://arxiv.org/abs/2506.03053
[24] BEYOND SINGLE-AGENT SAFETY. A Taxonomy of Risks in LLM Ecosystems. https://arxiv.org/html/2512.02682v1
[25] GOOGLE. Announcing the Agent2Agent Protocol (A2A). https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/
[26] X LI. LLM Agent Communication Protocol (LACP) Requires Standardization. https://arxiv.org/abs/2510.13821
[27] LANGCHAIN / AWS. Build multi-agent systems with LangGraph. https://aws.amazon.com/blogs/machine-learning/build-multi-agent-systems-with-langgraph-and-amazon-bedrock/
[28] MICROSOFT. Introduction to Microsoft Agent Framework. https://learn.microsoft.com/en-us/agent-framework/overview/agent-framework-overview
[29] ANTHROPIC. Effective context engineering for AI agents. https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
[30] MONGODB. Why Multi-Agent Systems Need Memory Engineering. https://medium.com/mongodb/why-multi-agent-systems-need-memory-engineering-153a81f8d5be
[31] W WANG. OdysseyBench: Evaluating LLM Agents on Long-Horizon Workflows. https://arxiv.org/html/2508.09124v1
[32] X MA. Caution for the Environment: Multimodal LLM Agents are Susceptible to Environmental Distractions. https://aclanthology.org/2025.acl-long.1087/
[33] J YANG. Magma: A Foundation Model for Multimodal AI Agents. https://arxiv.org/abs/2502.13130
[34] PHYSICAL AI AGENTS. Physical AI Agents: Integrating Cognitive Intelligence with Physical Interaction. https://arxiv.org/html/2501.08944v1
[35] M MOHAMMADI. Evaluation and Benchmarking of LLM Agents: A Survey. https://arxiv.org/abs/2507.21504
[36] P ANOKHIN. HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning. https://arxiv.org/abs/2508.12782
[37] Y FU. RAS-Eval: A Comprehensive Benchmark for Security Evaluation of LLM Agents. https://arxiv.org/abs/2506.15253
[38] LAKERA. The Backbone Breaker Benchmark. https://www.lakera.ai/blog/the-backbone-breaker-benchmark
[39] Y JIANG. MedAgentBench: A Virtual EHR Environment to Benchmark Medical LLM Agents. https://arxiv.org/abs/2501.14654
[40] L BERTI. Emergent Abilities in Large Language Models: A Survey. https://arxiv.org/pdf/2503.05788
[41] TRiSM FOR AGENTIC AI. TRiSM for Agentic AI: Trust, Risk, and Security Management in LLM-based AMAS. https://arxiv.org/html/2506.04133v2
[42] TRUSTAGENT. TrustAgent: A Survey on Trustworthy LLM Agents. https://github.com/Ymm-cll/TrustAgent
[43] V RAJENDRAN. SAFE-AGENT: A Safety-Assured Framework for Embodied LLM Decision Systems. https://openreview.net/forum?id=OiW4gwYVCR
[44] H YU. Simulated patient systems powered by large language models. https://www.nature.com/articles/s43856-025-01283-x
[45] Y XIAO. TradingAgents: Multi-Agents LLM Financial Trading Framework. https://arxiv.org/pdf/2412.20138v5.pdf
[46] S REN. A Survey of LLM-based Scientific Agents. https://arxiv.org/abs/2503.24047
[47] KEMPNER INSTITUTE. From models to scientists: Building AI agents for scientific discovery (ToolUniverse). https://kempnerinstitute.harvard.edu/research/deeper-learning/from-models-to-scientists-building-ai-agents-for-scientific-discovery/
[48] I BOUZENIA. ExecutionAgent: An LLM Agent to Execute Tests of Arbitrary Projects. https://software-lab.org/publications/issta2025_ExecutionAgent.pdf
[49] NVIDIA. Spec2RTL-Agent: Automated Hardware Code Generation. https://research.nvidia.com/publication/2025-06_spec2rtl-agent-automated-hardware-code-generation-complex-specifications-using
如果这篇文章帮助到了你,你可以请作者喝一杯咖啡

浙公网安备 33010602011771号