Agentic LLMs：下一代 LLM 智能体在规划、记忆、多智能体协作与安全治理上的前沿综述

LLM Agents：从“会说话的模型”到“可行动的系统”

本文面向已有一定研究或工程基础的读者，尝试在 2024–2025 年最新工作的基础上，对 LLM+Agents 的研究版图进行系统综述，并给出我对未来方向的判断与建议。整体结构如下：

概念与范式转变：从 LLM 到 Agentic LLM
单智能体架构：规划、工具调用、记忆与自进化
多智能体系统：协作、博弈、涌现与去中心化
核心基础设施：函数调用、协议、框架与记忆系统
多模态与具身智能体：从屏幕到物理世界
评估与基准：能力、长程规划、安全与领域基准
安全、信任与治理：从单模型安全到系统级安全
典型垂直场景：医疗、金融、科学发现与软件工程
关键开放问题与未来研究方向

1. 概念与范式转变：从 LLM 到 Agentic LLM

1.1 什么是 LLM Agent？

近期多篇综述对“LLM 作为智能体（LLM-based Agents / Agentic LLMs）”给出了较一致的抽象：在传统 LLM 的基础上，引入 规划（planning）、感知（perception）、行动（action）、记忆（memory） 四大模块，使其能够在环境中持续感知、决策与执行，而不仅是一次性回答问题。[1][2][3]

这类系统往往具备：

工具调用 / 函数调用能力：通过外部 API / 工具 / 其它 Agent 完成读写文件、调用数据库、浏览网页等操作；
基于环境状态的迭代决策：而非“一次思考，直接输出结果”；
长期记忆与个性化：能够跨会话、跨任务保留经验，甚至自我演化；
自治程度提高：从“协助型助手”逐步向“自驱决策主体”演进。

1.2 从单模型到多代理协作的范式变化

Multi-Agent LLM Systems 已经从边缘话题变为主流研究方向：

LLM 驱动的多智能体系统被用于 任务分解、角色分工、协同创造、社会博弈与群体推理。[4][5]
多篇综述从协作机制维度给出系统性框架：参与者（actors）、交互类型（合作/竞争/合作竞争）、结构（集中式 / 分布式 / 点对点）、策略（基于角色/模型）、协调协议等。[4]
信息论工作开始从“高阶结构与涌现协调”角度衡量多 Agent 系统是否形成真正的“集体智能”而非若干独立模型的拼盘。[6]

未来的主线不再是“更大的单一模型”，而是“大模型 + Agent 架构 + 多 Agent 协同”的综合体。

2. 单智能体架构：规划、工具调用、记忆与自进化

2.1 规划与推理：从 ReAct 到 Pre-Act 与脑启发架构

早期 ReAct 将“思考 + 行动”交替串联，成为主流 agent prompting 模式。近期工作在此基础上进一步前移“规划”过程：

Pre-Act 提出在执行前生成多步执行计划及详细推理，计划在每一步执行后根据工具输出迭代修正，显著提升任务型智能体在工具调用和目标完成率上的表现（对 ReAct 在 Almita 数据集的 Action Recall 提升约 70%，经过微调后 Llama3.1-70B 甚至在该任务上超越 GPT-4）[7]。
脑启发 Modular Agentic Planner (MAP) 将规划拆解为若干类“前额叶功能模块”（任务分解、行动者、监控、预测、评估、编排），每个模块是一个专门 prompt 的 LLM 实例，通过有限树搜索协作完成规划，在 Tower of Hanoi、PlanBench、StrategyQA 等任务上显著优于单模型 CoT/ToT 等基线 [8]。其中 Monitor（约束检查 / 幻觉过滤） 被证明尤为关键。

趋势：
从“单一 LLM + 长 CoT 提示” → “多模块 LLM + 显式规划算法”。这意味着 agent 架构正在向可组合、可解释、可替换的模块化系统演进。

2.2 工具调用与函数调用能力

LLM 的工具调用已从工程能力演化为正式的研究对象：

Berkeley Function Calling Leaderboard (BFCL) 系列工作构建了大规模函数调用基准，涵盖多语言、多轮、多步调用，提出基于抽象语法树 (AST) 的评估方法，避免必须实际执行每个工具的高成本问题。[9]
实证表明：主流大模型在单步调用上已接近饱和，但在多步规划、状态追踪、何时“拒绝调用”上仍存在明显缺陷。[9]
Natural Language Tools (NLT) 提出用自然语言形式替代 JSON 结构化调用，将“选择何种工具”与“如何回答问题”解耦，从而显著提高工具调用的准确率（在 10 个模型、6400 次实验中平均提升约 18.4 个百分点，输出方差下降 70%，对开源模型收益尤大）[10]。

对研发者的启示：

函数调用不只是一组 API 接口，而应被视为 推理-决策-行动链中的一等公民；
需要区分：
- 调用决策（是否/调用哪个工具？）
- 调用参数生成（如何构造调用参数？）
- 调用结果融合（如何将结果整合进后续推理？）

2.3 记忆：从简单 RAG 到 agentic memory 系统

记忆被逐渐视作智能体时代的核心原语而非简单的“长上下文”：

统一视角的记忆综述
- 《Memory in the Age of AI Agents》区分：
  - 形式：token-level, parametric, latent；
  - 功能：事实记忆、经验记忆、工作记忆；
  - 动态：形成、演化、检索过程 [11]。
- 并系统梳理了记忆基准与框架，为之后的系统设计提供术语与概念基线。
具体系统：
- A-Mem：Zettelkasten 风格 Agentic Memory
  以卡片盒（Zettelkasten）思想为基础，将每次交互抽象为具备标签、关键词、上下文描述的“记忆笔记”，自动建立相互链接和演化，形成可动态生长的知识网络，实验证明在多种基础模型上显著优于传统向量库式记忆。[12]
- Evo-Memory：自进化记忆基准
  强调流式任务序列，要求智能体在部署期间不断检索、整合、更新记忆，引入 ReMem pipeline（行动–思考–记忆更新闭环）以测试 test-time learning 能力。[13]
- MIRIX：多模态多智能体记忆系统
  定义了六类记忆（核心、情景、语义、程序性、资源、知识库），同时支持视觉/多模态输入。
  在 ScreenshotVQA 上相对简单 RAG 提升约 35% 精度且存储减少 99.9%，在 LoCoMo 长对话基准上达到了 85.4% SOTA 表现。[14]
- G-Memory：多智能体层级记忆
  通过三层图结构（洞见–查询–交互）管理 MAS 中跨 trial、跨 agent 的协作轨迹，可在无修改原有框架前提下提升多任务成功率与知识问答精度 [15]。

实践要点：
单靠“把所有历史塞进上下文”或“简单向量检索”在 agent 场景中远远不够，记忆系统需要：

结构化（类别、属性、链接）；
可演化（历史记忆随新经验更新）；
与规划/工具调用/多 Agent 协调深度耦合。

2.4 自进化与自我改进智能体

最新工作逐步从“一次性设计完的 agent”走向可自我改进的闭环系统：

EXIF/自进化框架 使用“探索者 Alice – 被训练者 Bob”二元结构：
Alice 先在环境中探索，基于轨迹生成“可行且对 Bob 有学习价值的任务”；Bob 训练后由 Alice 评估，再指导下一轮探索，从而构成“无人工标注的闭环数据生成 & 能力扩展”流程。[16]
在 Webshop、Crafter 等环境中 EXIF 显示出逐步扩展技能空间与性能的能力，甚至当 Alice 与 Bob 使用相同基础模型时也可实现“自举式”自进化。[16]

这类工作说明：
智能体不只是 LLM 的“推理前端”，也可以成为生成自身训练数据的主动体，与 RL / offline RL / dataset distillation 结合是未来值得投入的方向。

3. 多智能体系统：协作、博弈、涌现与去中心化

3.1 协作机制与架构

多篇综述对 LLM 驱动的 Multi-Agent Systems（MAS）做了系统性总结 [4][5]，当前典型协作方式包括：

角色分工型：研究员 / 批评者 / 执行者 / 规划者等（如 PlanGEN 的约束–验证–选择三 Agent 框架，可在 NATURAL PLAN、DocFinQA、GPQA 等多基准上带来 4–8% 量级提升）[17]；
层级协作型：上层 Agent 担任 supervisor / orchestrator，负责任务分解与结果编排，下层为专业 Agent（Microsoft 的多 Agent 企业架构、PlanGEN、Verification-aware Planning（VeriMAP）等皆属此类）[17][18]；
去中心化协作型：如 NeurIPS 2025 的 AgentNet，通过有向无环图 (DAG) 结构与检索型记忆，让 Agent 之间基于局部能力动态调整连接、路由任务，实现跨组织协作与隐私保护。[19]

3.2 多智能体推理与“懒惰代理”问题

多 Agent 协作在推理上带来收益的同时也引入了新的 failure mode：

Lazy Agent Behavior：在“元思考者 + 具体推理者”的双 Agent 设置中，常出现一方主导、另一方几乎不贡献信息的情况。[20]
对此，近期工作从理论上分析了懒惰行为出现的原因，并提出：
- 稳定高效的因果影响测度，用于在训练/推理时衡量每个 Agent 对最终结果的贡献度；
- 可验证奖励机制，允许推理 Agent 丢弃噪声输出、重启推理流程，从而增强 deliberation。[20]

这一方向的关键信息：
多 Agent 并不必然比单 Agent 更强，如何避免“多人变一人”是必须面对的研究问题。

3.3 博弈论、社会行为与集体智能

在博弈环境中研究 LLM Agents 的行为已经形成一套独立脉络：

实验表明，在有限重复 2×2 社会困境游戏中：
- LLM 对自利博弈（如囚徒困境）表现良好，但在需要精细协调的博弈（Battle of the Sexes）中明显不足；
- GPT-4 等大模型表现出“不宽容”特性——一次被背叛后长期背叛对手；
- 引入 Social Chain-of-Thought (SCoT)（先预测他人行动再决策）可以显著提升协调成功率，并提高人类对其“类人性”的感知；[21]
FAIRGAME 框架及后续工作从激励敏感性、跨语言差异、终局策略变化等角度系统刻画了 LLM 在社会困境中的行为模式，并将其解释为“模型依赖/语言依赖的行为意图”。[22]

此外，对多 Agent 系统的涌现协调也已有定量分析框架：

Emergent Coordination in Multi-Agent LLMs 引入基于时延互信息的部分信息分解 (PID)，测量多 Agent 间的“协同”是否超出各自独立行为的叠加，并通过行/列 shuffle 构造零假设，区分“任务相关协同”与“伪协同”。[6]
通过简单猜数字游戏实验表明：
- 赋予每个 Agent 不同 persona + 显式提示“思考他人可能如何行动”时，可以从“无结构群体”引导到“稳定且目标对齐的补充性协同”。[6]

3.4 多 Agent 涉险行为与安全风险

当多个 LLM 交互时，会出现单模型场景中不存在的风险：

MAEBE 基准 显示在“最大利益”类道德决策中，多 Agent 集合的道德偏好会因提问方式变化而发生剧烈改变；群体决策出现“从众压力”等经典社会心理现象。[23]
Beyond Single-Agent Safety 提出应从“模型级安全”转向“系统级安全”，定义 Emergent Systemic Risk Horizon (ESRH) 概念，强调即便单模型均本地合规，交互网络结构也可能在系统层面产生失稳。[24]

4. 核心基础设施：协议、框架与记忆工程

4.1 通信与互操作协议：MCP, A2A, LACP 等

随着多 Agent 与多工具生态的兴起，社区开始强调开放协议：

Model Context Protocol (MCP)：统一 LLM 与外部工具/数据源的连接方式（JSON-RPC + 标准 schema），已被多云厂商与框架采用，支撑“工具即服务”的生态。
Agent2Agent Protocol (A2A)：谷歌提出的 Agent 间互操作开放协议，让不同厂商与框架实现的 Agent 能通过 Agent Card 公布能力、任务生命周期与 Artifact 进行协同。[25]
LLM Agent Communication Protocol (LACP)：受电信协议分层启发，提出语义层–事务层–安全层三层架构，主张为未来 6G 场景中的分布式 Agent 系统提供统一的通信标准。[26]

这些协议的重要性在于：
决定未来 Agent 生态是“集中封闭平台”还是“互联互通网络”。

4.2 Agent 框架与编排引擎

工业界/开源社区已经沉淀出若干主流框架：

LangGraph / LangChain：图式状态机 + 循环工作流，适合构建长程、多轮、多 Agent 的业务流程。[27]
Microsoft Agent Framework：统一 AutoGen 与 Semantic Kernel 的优势，提供多语言多模型、多 Agent、安全与遥测等企业级特性。[28]
AgentNet：面向研究的去中心化 MAS 框架，基于 RAG 的 DAG 结构，自适应路由任务与演化 Agent 能力。[19]

这些框架开始内建：

Agent Registry（登记、发现、验证、版本管理）；
统一的上下文与状态管理；
集成 MCP / A2A 等协议，对外呈现为“Agent 即后端服务”。

4.3 记忆工程与上下文工程

除了上述专门的记忆系统，实践文章普遍强调“Context Engineering”的重要性，尤其在有成本/延迟约束的生产环境中：

类似 Anthropic 的工作将 Agent 的“注意力预算”视为稀缺资源，提出通过分层上下文、局部摘要、记忆压缩、文件系统式存储等方式延长有效记忆跨度。[29]
多篇工程 Best Practice 指出，多 Agent 系统的瓶颈更多来自 记忆与状态管理 而非通信本身。[30]

5. 多模态与具身智能体：从屏幕到物理世界

5.1 数字界面 Agent：GUI 与 Web 环境

多个基准（OfficeBench, OdysseyBench 等）将 LLM Agent 放入桌面办公/浏览器环境，测试其在 UI 导航、跨应用操作、长任务编排 中的表现。[31]
工作表明，即便在 GUI 场景下，最新多模态 LLM 仍易受“环境干扰”（无害但无关的元素）影响，导致偏离任务目标。[32]

5.2 跨数字-物理世界的通用多模态模型：Magma

Magma 是重要的里程碑之一：

服务于数字与物理两类 Agent 场景——从 UI 控制到机器人操作；
提出了 Set-of-Mark (SoM) 标注 GUI 中可点击等可动作对象；Trace-of-Mark (ToM) 标注视频中手/机械臂等的运动轨迹，使模型在预训练阶段学习空间–时间可行动性。[33]
在 UI 导航与机器人操作基准上达到甚至超越专用模型，同时在图像/视频任务上接近或优于大规模 LMM。[33]

5.3 Physical AI Agents 与 Ph-RAG

“Physical AI Agents” 相关工作提供了一个抽象模板：

以 感知（perception）— 认知（cognition）— 执行（actuation） 三块为核心；
引入 Physical RAG (Ph-RAG) 设计模式，将传感器/环境信息与领域 LLM 结合，实现实时决策与解释。[34]
案例涵盖自动驾驶、仓储机器人、医疗、制造等。

总体趋势：
新一代 Agent 将是多模态 + 多 Agent + 具身化的统一体，单一 modality/单 Agent 很难覆盖复杂任务。

6. 评估与基准：从 quiz 到 agent 级评估

6.1 通用评估框架

2025 年出现了专门针对 LLM Agents 的评估综述和教程 [35]：

提出二维 taxonomy：
- 评估目标：行为、能力、可靠性、安全/对齐；
- 评估过程：交互模式、数据/基准、指标、工具与上下文。
指出企业级特有挑战：基于角色的访问控制、可靠性保障、长期/动态交互、合规与隐私。

6.2 能力与任务类基准

典型代表包括：

长程规划与结构化推理：
- HeroBench（RPG 世界中的多步资源收集、技能学习、合成与打 Boss）；[36]
- PlanGEN、Pre-Act 等自身在 NATURAL PLAN、OlympiadBench、GPQA 等基准上展示提升；
- 长任务能力评估工作（如 METR 提出的“可完成任务长度”指标）正在兴起。
多 Agent 协作与竞争：
- MultiAgentBench、Concordia、MindGames 等竞赛与基准覆盖合作、混合利益、欺骗与 Theory-of-Mind。[4][21]
函数调用与工具使用：BFCL 系列、ComplexFuncBench 等。[9]
记忆能力：Evo-Memory、LoCoMo、MemoryAgentBench 等测试 Agent 在多轮对话/任务流中的记忆检索、更新与经验复用。[13]

6.3 安全与鲁棒性基准

RAS-Eval 提供 80 个测试用例、3802 个攻击任务，映射到 11 类 CWE 漏洞，实测显示攻击可将任务完成率降低约 36.8%，在学术环境中攻击成功率高达 85.7%。[37]
SEC-bench、Backbone Breaker 等针对安全工程、底座模型对抗鲁棒性展开系统测试。[38]
多篇工作强调：安全能力同样呈现 scaling law—大模型在安全测评中显著优于小模型，但仍远未达可部署门槛。[37]

6.4 领域基准：医疗、安防等

MedAgentBench 在虚拟 EHR 环境中提供 300 个医生编写任务、100 个病人、70 万+ 数据元素，兼容真实 FHIR API，SOTA 模型成功率约 70%，仍有巨大提升空间。[39]
医疗与安全领域的 agent 评估强调：
- 区分问答型任务与操作型任务，当前模型在后者尤其薄弱。[39]
- 需要引入人类专家在环以及“损害评估”维度指标，而不仅是正确率。

7. 安全、信任与治理：从模型到系统

7.1 风险拓展：从单模型到多 Agent 生态

Emergent Abilities Survey 指出，随着 LRM（大规模推理模型）、自进化 Agent 与多 Agent 协作的兴起，“涌现能力”不再只是正向能力，也包括欺骗、操纵、奖励黑客等负向 emergent 行为。[40]
Beyond Single-Agent Safety 强调多模型生态中的系统级风险，提出 ESRH 框架分析局部可靠如何在宏观层面汇聚成不稳定。[24]

7.2 TRiSM for Agentic AI 与 TrustAgent

TRiSM for Agentic AI 在传统 AI TRiSM 的基础上，为 Agentic MAS 引入四大支柱：
Explainability, Lifecycle Governance, Application Security, Model Privacy，并提出：
- Component Synergy Score (CSS)：衡量多 Agent 协作质量；
- Tool Utilization Efficacy (TUE)：衡量工具调用的正确率与效率。[41]
TrustAgent 则从攻击/防御/评估维度系统整理 LLM Agent 的威胁模型，将信任问题分为：
- 内在：大脑（模型）、记忆、工具；
- 外在：用户、其他 Agent、环境。[42]

7.3 安全架构实例：SAFE-AGENT

SAFE-AGENT 将机器人安全原则迁移至电商/零售场景，引入：
- Grounded Decision Alignment：行动与业务/安全策略对齐；
- Risk-Aware Action Governance：基于风险预测的阈值控制；
- Multi-Stage Guardrail Enforcement：多级防护链与回退机制。[43]

这一类工作预示着：
Agent 系统的安全治理会越来越像大规模分布式系统与金融监管，而不仅是“提示词过滤 + 内容审核”。

8. 典型垂直场景：让 LLM Agent 真正“落地”

8.1 医疗智能体

MedAgentBench 与 NEJM / Stanford 相关工作表明：
- LLM Agents 在 EMR 检索、总结与简单决策支持上已有一定能力；
- 但在“操作类任务”（例如修改医嘱、调整治疗路径）上仍然非常不可靠。[39]
模拟病人系统（如 AIPatient）使用多 Agent + RAG 生成复杂病人交互，用于医学生训练与模型评估。[44]

8.2 金融与量化交易

TradingAgents 框架通过“基本面分析–情绪分析–技术分析–研究员–交易员–风控”等多角色 LLM Agent 模拟真实交易公司组织结构：
- 采用结构化通信协议与明确的角色目标；
- 相较于传统量化策略，在累计收益、夏普率与最大回撤等核心指标上有显著优势。[45]

8.3 科学发现与“AI 科学家”

多篇工作（科学 Agents 调研、ToolUniverse 等）探索将 LLM Agent 嵌入科学工作流：
- 从假设生成–实验设计–数据分析–模拟–文献综述–专利检索全流程自动化或半自动化；[46][47]
- ToolUniverse 将 600+ 科学模型/数据库/模拟器封装为统一可调用工具，并展示了以 AI Scientist 优化药物分子的案例。[47]

8.4 软件工程与代码 Agent

Multi-Agent 编程框架（Spec2RTL-Agent、ExecutionAgent 等）展示了 LLM Agent 在从自然语言规格到代码/硬件描述、自动化构建与测试方面的潜力：
- ExecutionAgent 可在 50 个多语言开源项目上自动构建并运行测试用例，结果与真实 ground truth 平均偏差仅 7.5%，显著优于现有方法，平均每项目成本约 $0.16。[48]
- 多 Agent 代码生成体系（Spec2RTL-Agent）通过“理解–渐进编码–反思纠错”三 Agent 协作，在复杂硬件规格到 RTL 代码的任务中减少人为干预次数约 75%。[49]

9. 关键开放问题与未来研究方向

结合以上进展，我认为未来 2–4 年 LLM+Agents 研究的核心问题将集中在以下几个方向：

9.1 从“提示工程”到“Agent 架构设计”

需要一套类似“软件架构模式”的 Agent 设计模式：何时采用单 Agent、多 Agent、层级/去中心化、如何分配角色与记忆。
当前经验性工作（如“Don’t Build Multi-Agents”一类工程博文）表明：
盲目多 Agent 容易产生脆弱与高成本系统，系统性理论和实践指南仍然匮乏。

9.2 记忆与长期自进化

如何在 安全可控 的前提下，让 Agent 在部署中持续学习（test-time learning）、扩展能力而不遗忘旧知识？
记忆系统与训练流程的结合尚处早期：
- 记忆能否反哺模型微调，形成“经验–权重–记忆”的闭环？
- 如何避免记忆中毒（memory poisoning）与隐私泄露？

9.3 多 Agent 协同与系统级安全

如何平衡多 Agent 协同带来的“集体智能增益”与“系统级风险扩散”？
ESRH 与 TRiSM 等框架提供了概念工具，但缺少可操作的指标与监控方案，尤其在现实大规模部署中。

9.4 具身智能与现实环境鲁棒性

多模态与具身 Agent 的实验多在模拟环境（UI 仿真、虚拟机器人实验室），与真实世界存在“现实鸿沟”：
- 传感噪声、传感缺失、长时间延迟、不可逆操作与责任认定，使得纯 LLM 控制不可接受。
大概率会出现“LLM 作为高层策略 + 传统控制/规划作为低层执行”的混合范式，研究重点将是：
- 多模态对齐（感知–语义–动作）
- 安全屏障与可验证控制。

9.5 评估与标准化

需要跨任务、跨场景的 Agent-level Benchmark Suite：整合规划、记忆、协作、安全、成本等多维指标，并分级定义“可商用”的标准。
评估工具与平台应支持：
- 长期在线评估（持续 A/B 测试）；
- 人类在环审计与 alignment auditing Agents（如 Anthropic 的 auditing agents 方向）。

对研究者与工程师的几点建议

优先研究/采用模块化架构：
避免将所有需求都塞进一个大 prompt，而是通过多个专职模块（规划、监控、记忆、工具编排）组合能力。
将函数调用 + 记忆视为一等能力：
对 Agent 设计时，把“什么时候调用工具/写入记忆/回放记忆”纳入显式决策流程，而非外显工程细节。
在多 Agent 之前先把单 Agent 做好：
对大多数实际应用，清晰的单 Agent + 强记忆 + 高质量工具往往比复杂多 Agent 更有效、可控。
安全与评估从一开始就内建：
不要把安全、评估当“上线前加一层防护网”，而应从设计阶段引入 TRiSM 式思路和 CSS/TUE 等指标。
关注开放协议与生态：
MCP、A2A、LACP 等协议会决定你的系统是“可插拔的组件”还是“孤立的黑箱”，后续与外部生态的集成成本差异巨大。

References

[1] T YANG. The rise and potential opportunities of large language model agents. https://academic.oup.com/bib/article/26/6/bbaf601/8320153
[2] ZH XI. The rise and potential of large language model based agents. http://scis.scichina.com/en/2025/121101.pdf
[3] Y HU. Memory in the Age of AI Agents: A Survey. https://arxiv.org/abs/2512.13564
[4] KT TRAN. Multi-Agent Collaboration Mechanisms: A Survey of LLMs. https://arxiv.org/abs/2501.06322
[5] X ZHANG. A Survey of Multi-AI Agent Collaboration. https://dl.acm.org/doi/full/10.1145/3745238.3745531
[6] C RIEDL. Emergent Coordination in Multi-Agent Language Models. https://arxiv.org/pdf/2510.05174
[7] M RAWAT. Pre-Act: Multi-Step Planning and Reasoning Improves Agent Performance. https://arxiv.org/abs/2505.09970
[8] T WEBB. A brain-inspired agentic architecture to improve planning. https://www.nature.com/articles/s41467-025-63804-5
[9] SG PATIL. The Berkeley Function Calling Leaderboard (BFCL). https://openreview.net/forum?id=2GmDdhBdDk
[10] NATURAL LANGUAGE TOOLS (NLT). A Natural Language Approach to Tool Calling in LLMs. https://arxiv.org/abs/2510.14453
[11] Y HU. Memory in the Age of AI Agents. https://arxiv.org/abs/2512.13564
[12] W XU. A-Mem: Agentic Memory for LLM Agents. https://arxiv.org/abs/2502.12110
[13] T WEI. Evo-Memory: Benchmarking LLM Agent Test-time Learning. https://arxiv.org/abs/2511.20857
[14] Y WANG. MIRIX: Multi-Agent Memory System for LLM-Based Agents. https://arxiv.org/abs/2507.07957
[15] NEURIPS 2025. Tracing Hierarchical Memory for Multi-Agent Systems (G-Memory). https://neurips.cc/virtual/2025/poster/116187
[16] EXIF / EvolveR. Toward Self-Evolving Systems of LLM Agents. https://openreview.net/forum?id=uO3gGxzu8k
[17] M PARMAR. PlanGEN: A Multi-Agent Framework for Generating Plans. https://aclanthology.org/2025.emnlp-main.1042.pdf
[18] T XU. Verification-Aware Planning for Multi-Agent Systems (VeriMAP). https://arxiv.org/abs/2510.17109
[19] Y YANG. AgentNet: Decentralized Evolutionary Coordination for LLM-based Multi-Agent Systems. https://arxiv.org/abs/2504.00587
[20] Z ZHANG. Unlocking the Power of Multi-Agent LLM for Reasoning. https://arxiv.org/abs/2511.02303
[21] E AKATA. Playing repeated games with large language models. https://www.nature.com/articles/s41562-025-02172-y
[22] TK HUYNH. Understanding LLM Agent Behaviours via Game Theory. https://www.arxiv.org/abs/2512.07462
[23] S ERISKEN. MAEBE: Multi-Agent Emergent Behavior Evaluation Framework. https://arxiv.org/abs/2506.03053
[24] BEYOND SINGLE-AGENT SAFETY. A Taxonomy of Risks in LLM Ecosystems. https://arxiv.org/html/2512.02682v1
[25] GOOGLE. Announcing the Agent2Agent Protocol (A2A). https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/
[26] X LI. LLM Agent Communication Protocol (LACP) Requires Standardization. https://arxiv.org/abs/2510.13821
[27] LANGCHAIN / AWS. Build multi-agent systems with LangGraph. https://aws.amazon.com/blogs/machine-learning/build-multi-agent-systems-with-langgraph-and-amazon-bedrock/
[28] MICROSOFT. Introduction to Microsoft Agent Framework. https://learn.microsoft.com/en-us/agent-framework/overview/agent-framework-overview
[29] ANTHROPIC. Effective context engineering for AI agents. https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
[30] MONGODB. Why Multi-Agent Systems Need Memory Engineering. https://medium.com/mongodb/why-multi-agent-systems-need-memory-engineering-153a81f8d5be
[31] W WANG. OdysseyBench: Evaluating LLM Agents on Long-Horizon Workflows. https://arxiv.org/html/2508.09124v1
[32] X MA. Caution for the Environment: Multimodal LLM Agents are Susceptible to Environmental Distractions. https://aclanthology.org/2025.acl-long.1087/
[33] J YANG. Magma: A Foundation Model for Multimodal AI Agents. https://arxiv.org/abs/2502.13130
[34] PHYSICAL AI AGENTS. Physical AI Agents: Integrating Cognitive Intelligence with Physical Interaction. https://arxiv.org/html/2501.08944v1
[35] M MOHAMMADI. Evaluation and Benchmarking of LLM Agents: A Survey. https://arxiv.org/abs/2507.21504
[36] P ANOKHIN. HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning. https://arxiv.org/abs/2508.12782
[37] Y FU. RAS-Eval: A Comprehensive Benchmark for Security Evaluation of LLM Agents. https://arxiv.org/abs/2506.15253
[38] LAKERA. The Backbone Breaker Benchmark. https://www.lakera.ai/blog/the-backbone-breaker-benchmark
[39] Y JIANG. MedAgentBench: A Virtual EHR Environment to Benchmark Medical LLM Agents. https://arxiv.org/abs/2501.14654
[40] L BERTI. Emergent Abilities in Large Language Models: A Survey. https://arxiv.org/pdf/2503.05788
[41] TRiSM FOR AGENTIC AI. TRiSM for Agentic AI: Trust, Risk, and Security Management in LLM-based AMAS. https://arxiv.org/html/2506.04133v2
[42] TRUSTAGENT. TrustAgent: A Survey on Trustworthy LLM Agents. https://github.com/Ymm-cll/TrustAgent
[43] V RAJENDRAN. SAFE-AGENT: A Safety-Assured Framework for Embodied LLM Decision Systems. https://openreview.net/forum?id=OiW4gwYVCR
[44] H YU. Simulated patient systems powered by large language models. https://www.nature.com/articles/s43856-025-01283-x
[45] Y XIAO. TradingAgents: Multi-Agents LLM Financial Trading Framework. https://arxiv.org/pdf/2412.20138v5.pdf
[46] S REN. A Survey of LLM-based Scientific Agents. https://arxiv.org/abs/2503.24047
[47] KEMPNER INSTITUTE. From models to scientists: Building AI agents for scientific discovery (ToolUniverse). https://kempnerinstitute.harvard.edu/research/deeper-learning/from-models-to-scientists-building-ai-agents-for-scientific-discovery/
[48] I BOUZENIA. ExecutionAgent: An LLM Agent to Execute Tests of Arbitrary Projects. https://software-lab.org/publications/issta2025_ExecutionAgent.pdf
[49] NVIDIA. Spec2RTL-Agent: Automated Hardware Code Generation. https://research.nvidia.com/publication/2025-06_spec2rtl-agent-automated-hardware-code-generation-complex-specifications-using

posted @ 2026-01-07 11:02 stardsd 阅读(55) 评论(0) 收藏举报

刷新页面返回顶部

赏月斋

慎终如始 宁静致远