【综述】基于大语言模型的AI代理通信综述：协议、安全风险与防御对策

https://arxiv.org/abs/2506.19676

摘要

近年来，基于大语言模型（LLM）的AI代理展现出前所未有的智能与适应性，正在迅速改变人类的生产和生活方式。当前，AI代理正经历新一轮的演化，不再像传统LLM那样作为信息孤岛存在，而是开始与其他代理、工具等多种外部实体进行通信，以协作完成更为复杂的任务。在这一趋势下，代理通信被视为未来AI生态系统的基础支柱，许多组织也在近几个月内密集设计相关通信协议（如Anthropic的MCP和Google的A2A）。然而，这一新兴领域也暴露出显著的安全隐患，可能对现实场景造成严重危害。为帮助研究者快速了解这一前沿主题并推动未来代理通信的发展，本文对代理通信安全进行了全面综述。具体而言，我们首先对代理通信进行了明确定义，并将其全生命周期划分为用户-代理交互、代理-代理通信和代理-环境通信三个阶段。随后，针对每一阶段，我们剖析了相关协议，并根据通信特性分析了安全风险。接着，针对每类风险，总结并展望了可能的防御对策。此外，我们还基于MCP和A2A协议进行了实验，帮助读者更好地理解代理通信带来的新型安全漏洞。最后，本文讨论了该领域的开放问题与未来发展方向。

引言

大型语言模型（LLMs）的出现推动了人工智能（AI）的革命性进步，展现出前所未有的复杂任务理解能力。更重要的是，LLMs极大地促进了人类所期望的AI理想形态智能体（agents的发展。与主要作为聊天机器人的LLMs不同，智能体具备更全面的能力（如感知、交互、推理和执行），能独立完成现实世界中的任务。例如，当用户希望制定旅行计划时，LLMs只能以文本形式给出最佳方案，而智能体则可以付诸行动，如查询天气、购买车票和预订酒店。

智能体极大加速了企业智能化转型的进程，其市场规模预计每年增长46%。可以预见，智能体将颠覆现代社会的生产和生活方式，极大地改变未来的商业格局。因此，开发和推广智能体已成为主要国家和有影响力企业的战略规划。

目前，智能体正朝着领域专用方向演进，即针对特定场景和任务进行定制。在这一背景下，如图1所示，一个任务通常需要多个智能体协作，这些智能体可能分布在全球互联网各地。在这种情况下，智能体通信成为未来AI生态系统的基础。它使智能体能够发现具备特定能力的其他智能体、访问外部知识、分配任务并进行其他交互。基于智能体通信的广阔市场，越来越多的社区和企业正在抓住机遇，推动智能体通信的发展。2024年11月，Anthropic提出了模型上下文协议（MCP），这是一种通用协议，允许智能体调用外部环境，如数据集、工具和API。MCP在最近几个月迅速获得了大量关注。截至目前，已有数百家企业宣布接入MCP，如OpenAI、Google、Microsoft、Amazon、阿里巴巴和腾讯，MCP的软件包每周下载量超过300万次。2025年4月，Google提出了智能体间协议（A2A），实现了智能体之间的无缝通信与协作。自发布以来，A2A得到了Microsoft、Atlassian、PayPal等众多企业的广泛支持。可见，智能体通信的突破正在带来快速而深刻的变革，并将成为AI生态系统不可或缺的一部分。

然而，智能体通信的快速发展也带来了复杂的安全风险，可能对AI生态系统造成严重危害。例如，跨组织智能体的协作显著扩大了攻击面，带来了包括但不限于隐私泄露、智能体伪造、智能体霸凌和拒绝服务攻击等严重安全风险。由于与智能体通信相关的研究仍处于起步阶段，亟需对完整智能体通信生命周期中存在的安全问题进行系统性综述。顺应这一趋势，本文旨在全面梳理现有智能体通信技术，分析其安全风险，并探讨可能的防御对策。我们相信，这项工作能够帮助广大读者，包括致力于智能体开发的研究人员以及刚刚踏入AI领域的初学者。

本文的主要贡献如下：

我们首次提出了智能体通信的定义，并基于“通信对象”将其划分为三个阶段，覆盖了智能体通信的完整生命周期。
我们对现有的智能体通信协议进行了全面梳理与分类，并针对每个通信阶段深入分析和归纳了相关安全风险，详细讨论了有针对性的防御对策。
我们基于MCP和A2A协议进行了实验，帮助读者更好地理解智能体通信带来的新攻击面。结果显示，攻击者可以利用MCP和A2A轻易对用户系统和隐私造成严重危害。
我们最后讨论了智能体通信领域的开放性问题与未来研究方向，不仅指出了亟需突破的技术，还阐述了相关法律法规的需求。

结构安排

如图2所示，本文结构安排如下：第2节对比了与本文最相关的综述，并概述了本文的创新点。第3节介绍了本文的基础知识。第4节给出了智能体通信的定义与分类。第5节介绍了用户-智能体交互协议，并分析了相关安全风险及防御措施。第6节展示了智能体-智能体通信协议、相关安全风险及对应防御措施。同样地，第7节介绍了智能体-环境通信的协议、风险与防御。第8节通过MCP和A2A协议进行实验，说明智能体通信带来的风险。第9节讨论了开放性问题与未来研究方向。第10节对全文进行总结。

大模型驱动的智能体

在本节中，我们回顾了从LLM到LLM驱动AI Agent的整个发展历程。我们的目标是帮助初学者快速了解Agent的概念、特性、关系及其应用。

大型语言模型（Large Language Model, LLM）

大型语言模型（LLM）是一种基于大规模文本语料训练的人工智能（AI）模型，能够理解和生成自然语言。一经问世，LLM在自然语言理解与生成、逻辑推理、代码生成、翻译等多个领域展现了前所未有的能力。这些卓越表现主要归因于两个关键因素：一是LLM基于强大的Transformer架构，能够有效建模和捕捉输入序列中各个部分的上下文依赖关系，并动态分配不同部分的重要性；二是LLM拥有远超传统AI模型的“超大规模”参数。当模型参数超过某一阈值后，LLM会展现出“涌现能力”，即在小模型中未曾出现的意外能力。如表2所示，LLM的参数规模可达传统AI模型的数百乃至数千倍。

LLM驱动的AI Agent

为此，Agent被赋予了多种模块，使其具备更强大的能力。如图3所示，Agent通常包含感知、记忆、工具、推理和行动五大模块。

感知模块：为了自动完成指定任务，Agent需要具备感知现实环境的能力。例如，自动驾驶Agent需实时感知路况，以便采取避让、行驶或刹车等操作。感知能力的类型取决于Agent所服务的领域，如自动驾驶Agent需具备视觉或雷达感知能力，而代码生成Agent则可能不需要这些功能。
记忆模块：处理现实任务还需要强大的记忆能力。Agent需具备长期记忆，以存储复杂指令、知识、环境交互历史或未来步骤可能需要的数据。这通常需要外部存储资源的辅助，如数据库或共享记忆。相比之下，LLM的记忆能力较弱，仅能维持短期对话轮次。
推理与规划模块：LLM凭借其卓越的推理与规划能力，成为Agent的大脑。它接收用户指令，并自动将任务分解为多个可行步骤，然后从不同候选方案中选择最佳方案。此外，还能根据环境反馈调整策略，减少如代码bug或逻辑错误等问题。例如，自动驾驶模块发现障碍物接近时，会调整计划减速或绕行。
工具模块：工具模块负责将外部资源与Agent的认知能力深度整合，使其能够执行超越LLM本身能力的复杂操作。例如，通过预定义的功能接口和协议，数学Agent能够调用外部计算库和符号求解器，辅助解决数学问题。
行动模块：行动模块是与环境交互的核心枢纽，负责将LLM做出的决策转化为可执行的物理或数字操作，并获取反馈。该模块通过结构化输出控制，确保指令的可执行性。例如，当LLM生成完整的动作描述后立即停止生成，以避免冗余输出干扰后续解析。

通过集成上述模块，Agent建立了“感知-决策-行动-反馈”的闭环系统，从而在自动完成领域任务方面展现出前所未有的能力，更加接近人类期望的AI终极形态。

Agent与LLM的对比

表3展示了Agent在不同指标上相较于LLM的优势。总体来看，除安全性外，Agent在多方面优于LLM。

高度自主性。 LLM只能被动响应用户提示并生成回复，无法独立规划或执行任务，且回复质量高度依赖于提示词技巧，严重影响用户体验。相比之下，Agent具备独立的任务分解、策略调整和外部工具调用能力，突破了LLM的被动模式，具有高度自主性。
灵活的多模态交互。 LLM在处理多模态输入（如文本和图片）方面能力有限，输出也主要为单一模态（如仅文本或仅图片），缺乏主动调用工具执行物理操作或生成多模态内容的能力。Agent通过部署多模态感知框架和工具调用接口，能够实现与复杂环境的交互，包括视觉、文本、语音及其他物理元素。
丰富的工具调用。 LLM通常只能通过预定义API接口被动调用单一工具（如Function Calling），且仅能按指令执行固定操作（如调用天气API回答查询）。Agent则具备主动决策能力，能够自主选择、组合并动态调整多种工具，如连接爬虫、数据库和可视化工具等，生成更丰富的响应。
更强的幻觉抑制能力。 LLM存在严重的“幻觉”问题，即容易生成不存在的知识。LLM主要依赖训练数据的知识内化，面对未覆盖领域或过时信息时更易出现幻觉。Agent则可通过集成检索增强生成（RAG）等多种技术，降低错误率，更好地校准行为。
动态适应能力。 LLM本质上是静态模型，知识固定在训练阶段。尽管微调或模型编辑等技术降低了训练成本，但LLM仍难以适应实时事件。Agent则配备了在线网页搜索、数据库查询或实时传感器等技术，能够动态适应实时环境和信息的变化。
更强的协作能力。 LLM在处理复杂任务时协作能力不足。首先，LLM无法很好地与工具交互，仅能通过简单API获得有限外部支持；其次，不同LLM之间缺乏有效的协作机制。Agent则具备多Agent协作设计，如MCP实现统一工具集成，A2A支持不同企业Agent协作完成任务。
更差的安全性。 Agent的安全性劣于LLM，这是其主要弱点。LLM仅能输出文本，即使内容违法或歧视，其对现实世界的影响有限。而Agent具备调用工具的能力，可能对现实世界造成实质性损害，包括但不限于恶意/错误操作机器、污染数据库、瘫痪系统等。因此，Agent的安全性问题亟需关注。

Agent应用场景

由于Agent展现出强大的优势，相关应用正呈现爆发式增长，涵盖了从科学研究到工程系统、社会服务等多个领域。鉴于Agent应用并非本文重点，本文仅简要梳理其实际应用场景，以展示Agent的快速普及。

科学研究。
Agent正日益嵌入科研流程，提升创新、自动化与发现能力。其贡献覆盖数学、化学、生物科学、材料科学等多个学科。

技术与工程系统。
Agent在工程领域的作用日益突出，推动自动化、系统智能化和软件智能化。例如，Agent广泛应用于软件工程，辅助代码生成、缺陷定位、验证与系统配置。此外，Agent在游戏开发、仿真和具身智能等领域也备受关注。

社会治理与公共服务。
Agent正逐步应用于公共服务和人类福祉相关领域。例如，在法律领域，Agent被用于合同起草、法律文档审查、合规性检查和案例分析。金融服务、教育、医疗等领域也在积极引入Agent，提升服务效率和智能化水平。

总体来看，Agent正广泛应用于各行各业，极大促进了生产力的发展。更重要的是，Agent的应用仍处于初级阶段，未来发展空间巨大。据估计，Agent市场将以每年40%的速度增长，预计到2035年市场规模将超过2168亿美元。

主要结论

Agent在多项指标上相较于LLM展现出显著优势，如更丰富的感知能力、更强的学习能力和更高的适应性。当前，为提升服务质量，Agent正朝着专业化、精细化方向演进，聚焦于小领域的专业技能，而不再追求LLM那样的全面能力。LLM更像是未来智能的中间过渡形态，而Agent则是人工智能发展的下一个阶段。可以预见，Agent最终将成为未来生产生态和日常生活中不可或缺的组成部分。然而，由于Agent具备工具执行能力，其安全性劣于LLM。因此，研究Agent通信的安全性对于AI生态系统具有重要意义。

智能体通信概览

动机：对智能体通信的需求

尽管智能体在各个领域的优势日益明显，其发展也遇到了新的障碍，这些障碍催生了对智能体通信的需求。

发展趋势的冲突。 首先，智能体向精细化发展的趋势与用户抽象需求之间存在根本性冲突。随着智能体在垂直领域（如医疗诊断、金融风控、工业控制等）不断深入和专业化，其能力边界日益细化。然而，用户的使用习惯却表现出相反的特征：他们倾向于输入简单且抽象的指令（如“规划一次跨境旅行”）来触发复杂任务的执行。对于领域专用的智能体来说，独立完成如此抽象的指令非常困难。此外，这种用户习惯的趋势难以逆转，因为人们总是偏好操作简便的应用，而不是需要繁琐步骤的系统。后者在市场竞争中处于劣势。通常，每增加一步操作，用户流失率就会上升10%-20%。因此，智能体不仅不能要求用户改变习惯，还必须迎合用户的这种需求，这与智能体的发展方向形成了矛盾。

封闭的生态系统。 当前主流的多智能体系统采用封闭生态设计，依赖私有交互机制，形成了刚性的技术壁垒。这种发展范式极大限制了与外部系统的动态协作能力。例如，外部智能体无法被主动发现或调用，导致跨平台协作极为困难。此外，这种封闭生态进一步导致系统效能下降。一方面，智能体因绑定私有工具而失去可扩展性；另一方面，跨平台知识共享的受阻抑制了智能体的智能水平。因此，有必要提出能够整合不同社区智能体的通信机制。

智能体通信的定义

为了解决上述冲突，智能体通信变得尤为迫切。具体而言，智能体需要与一系列外部实体协作以完成用户任务。本文对智能体通信给出如下明确定义：

当智能体完成任务时，其通过标准化协议框架，与多样化要素进行多模态信息交换和动态行为协同，最终将结果返回给用户。该过程中涉及的所有通信行为均属于智能体通信。

可以看出，智能体通信具备以下条件：

智能体通信是任务驱动的。所有类型的智能体通信都必须在用户分配任务的前提下被触发。尽管在某些场景下，智能体接收的指令来自其他智能体而非用户，但这些调用过程同样可以追溯到最初的用户指令，因此也属于智能体通信。相反，例如在没有用户任务生成时，数据库的更新或分布式数据库的同步则不属于智能体通信。
通信对象之一必须是智能体。智能体可以与不同要素（如工具、用户或其他智能体）进行通信。只要通信对象之一为智能体，该通信即被视为智能体通信。相反，例如用户在提交指令前直接查询数据库以完善指令，这种用户-数据库交互不属于智能体通信；又如被调用的工具调用其他工具（如计算工具调用其他库），该过程也不属于智能体通信。

满足上述条件的通信行为均可视为智能体通信。

智能体通信分类

根据通信对象的不同，我们将智能体通信分为三类：用户-智能体（user-agent）、智能体-智能体（agent-agent）、智能体-环境（agent-environment）。我们将以图 4 为例，系统性地概述智能体通信的完整生命周期。

用户-智能体交互

用户-智能体交互是指智能体接收用户指令并将执行结果反馈给用户的过程。如图4所示，用户在步骤1向智能体发出任务（如制定北京旅行计划）。智能体随后执行一系列操作以完成该任务，并在步骤7将结果返回给用户。需要注意的是，用户与智能体的交互过程在本质上与与大语言模型（LLM）的交互类似。因此，我们采用“交互（interaction）”而非“通信（communication）”这一术语。

智能体-智能体通信

智能体-智能体通信是指两个或多个智能体通过标准化协作协议进行协商、任务分解、子任务分配和结果聚合，以协同完成用户分配任务的通信过程。在图4 中，智能体对旅行任务进行分解并分配子任务（步骤3）。例如，该任务被分解为景点搜索、天气查询、机票预订和酒店预订，每个子任务由独立的智能体完成。随后，智能体在互联网上寻找合适的智能体并将这些任务分配给它们（步骤4）。这些智能体完成收到的任务后，将结果返回给原始智能体（步骤6）。

智能体-环境通信

智能体-环境通信是指智能体通过标准化协议与环境实体（如工具、知识库及其他有助于任务执行的外部资源）进行交互，以完成用户任务的通信过程。在图 4 中，原始智能体在分配任务给其他智能体之前，通过在线搜索查询北京天气（步骤2），这就是典型的智能体-环境通信案例。此外，其他智能体也可以借助环境工具完成子任务。例如，在步骤5中，旅行智能体通过其数据库或在线博客搜索热门景点。

该分类方法的优势。
不同实体本质上具有差异化的能力特征和攻击面属性。例如，用户-智能体交互的主要安全风险之一在于用户输入的天然不可控性，这与智能体-智能体或智能体-环境通信本质不同。因此，按实体类型对智能体通信进行分类，可以直接聚合具有相似特征的主要漏洞类型和防御策略，为未来的安全研究提供结构化分析范式。

主要结论

顺应用户的使用趋势，多智能体协作已成为明确的发展方向。在这一背景下，智能体通信成为未来AI生态的基础。基于通信实体，我们将智能体通信划分为三类：用户-智能体交互、智能体-智能体通信和智能体-环境通信。该分类方法能够自然区分具有相似漏洞特征的通信类型，为后续结构化研究提供范式。

用户-代理交互

本节将介绍当前的用户-代理交互协议、其安全风险以及未来的防御策略。

协议

PXP 协议。
PXP 协议专注于在人类专家与代理之间构建交互系统，主要应用于复杂的科学、医疗等数据分析任务。值得一提的是，PXP 并非专为大语言模型（LLM）驱动的代理定制，但其设计对代理通信具有启发意义，因此本文予以讨论。PXP 以“双向可解释性”机制为核心，采用四种消息标签：RATIFY（批准）、REFUTE（反驳）、REVISE（修订）和 REJECT（拒绝），以规范人类专家与代理之间的互动。在交互开始时，代理首先发起预测并给出解释，随后双方交替沟通。系统通过有限状态机，根据预测匹配（MATCH）和解释一致性（AGREE）情况计算消息标签并更新上下文。PXP 使用黑板系统存储数据、消息和上下文信息。该过程持续进行，直到达到消息上限或出现特定终止条件。PXP 的有效性已在放射学和药物发现等场景中得到验证。

空间群体协议（Spatial Population Protocols）。
空间群体协议是一种极简且高效的分布式计算模型，专为机器人系统中的分布式定位问题（DLP）设计。与 PXP 类似，严格来说，该协议并非为 LLM 驱动的代理系统设计，但由于其对需要定位服务的代理具有潜在价值，本文也予以讨论。空间群体协议允许代理在欧几里得空间中交互时获取成对距离或相对位置向量。每个代理可存储有限数量的坐标。在交互过程中，除了知识交换，还可进行几何查询。通过多接触流行机制、领导者选举和自稳定设计，使 n 个匿名机器人能够从各自不一致的坐标系高效定位到统一的坐标共识，为动态环境下的机器人协作提供了可扩展框架。

AG-UI 协议。
AG-UI 协议基于客户端-服务器架构实现用户（前端应用）与代理之间的通信，并采用事件驱动机制完成交互过程。如图6所示，前端应用通过 AG-UI 客户端（如支持服务器推送事件或二进制协议的常见通信客户端）连接代理。客户端调用协议层的 RUN 接口向代理发送请求。当代理处理请求时，会生成流式事件并返回给 AG-UI 客户端。事件类型包括生命周期事件（如运行开始、运行完成）、文本消息事件（通过开始、内容、结束分段传输）、工具调用事件（按开始、参数、结束顺序传递）以及状态管理事件。AG-UI 客户端通过订阅事件流处理不同类型的响应。代理之间可以转移上下文，以保持对话的连续性。所有事件遵循统一的基础事件结构，并经过严格的类型校验，以确保通信的可靠性和高效性。

此外，需要指出的是，前人的综述将 CrowdES 归类为代理相关协议。经过我们的仔细研究，我们认为 CrowdES 实际上是一个用于生成和评估模拟人群与真实人群的框架，并不适合在代理通信领域进行讨论。因此，本文不再列出该协议。

安全风险分析：恶意用户针对良性代理

根据我们的分析，用户输入呈现出显著的多模态特征。例如，AG-UI 协议明确支持多模态内容，如文本、图像和视频。因此，我们发现用户-代理交互中的安全风险主要源于这些不安全的输入。

文本攻击

在用户-代理交互中，攻击者可以通过精心设计的恶意提示词操纵模型行为或绕过安全机制。这类攻击无需修改模型参数或架构，而是通过自然语言输入实现，具有高度隐蔽性和适用性。由于语言形式多样、语义间接，这些攻击往往能有效绕过安全机制，在实际应用中带来显著安全风险。主要可分为两类：提示注入（Prompt Injection）和越狱攻击（Jailbreak）。

提示注入（Prompt Injection）
指攻击者通过在用户输入或外部数据源中嵌入对抗性提示词，操纵代理的预期行为。提示注入分为直接和间接两类。直接提示注入是指用户输入中明确包含改变代理行为的指令（如“忽略所有先前指令”），以覆盖原始提示词、颠覆代理预期行为。间接提示注入则是通过外部数据源引入的输入，而非用户直接提供。例如，在检索增强生成（RAG）场景中，检索到的文档可能包含攻击者精心设计的对抗样本；在网页增强代理中，恶意提示词可通过网页中的隐藏字段或元数据注入，操纵代理响应。
越狱攻击（Jailbreak）
是更激进的提示注入形式，攻击者通过多轮推理、角色扮演、混淆表达等技巧，绕过安全约束，诱导模型生成有害、敏感或受限内容，从而突破对齐机制。

多模态攻击

随着用户-代理交互日益涉及图像、音频等多种模态，代理系统面临新的安全威胁，尤其是在模型隐式假设各模态内容一致且可信的情况下。攻击者可以利用非文本输入通道，绕过安全机制，发起隐蔽攻击。此类攻击主要分为两类：

基于图像的攻击： 攻击者操纵视觉输入通道误导代理系统。常见策略包括视觉伪装（如角色扮演、风格化图像、视觉文本覆盖）、视觉推理、对抗性扰动（如对抗性子图像插入）、嵌入空间注入等。例如，通过在图像子区域插入极小的 \(\ell_\infty\) 有界对抗扰动，攻击者可诱导多模态大语言模型（MLLM）执行有害指令。这类攻击利用跨模态不一致性，将对抗内容隐藏于视觉信息中，而文本提示保持正常，从而绕过传统内容审核。
基于音频的攻击： 音频通道攻击针对语音控制代理、智能助手及带有自动语音识别（ASR）组件的多模态模型。攻击者可合成语音或生成对抗性音频，注入未授权指令、冒充合法用户或触发未授权操作。常用技术包括对抗性波形生成、基于角色扮演的语音越狱、多语种对抗迁移等。在安全敏感场景（如说话人认证、家庭自动化）下，这类攻击可绕过访问控制或提升权限。最新研究还发现，即使是黑盒ASR系统也易受无需模型内部信息的优化对抗扰动攻击。

这些多模态攻击尤为危险，因为对抗内容可隐藏于非文本模态，难以被主要基于文本训练的对齐机制和安全过滤器检测。此外，这也凸显了需要结合感知鲁棒性、跨模态一致性验证和对抗检测策略的模态感知防御机制。

隐私泄露

如果缺乏有效的数据治理，丰富的感知数据可能被恶意用户利用，发起各种形式的隐私泄露攻击，严重威胁代理系统的机密性。Want 等人提出了 MASLEAK 攻击方法，能够针对多智能体系统（MAS）实施知识产权泄露攻击。MASLEAK 可在黑盒场景下运行，无需事先了解 MAS 架构。通过精心设计的对抗性查询，模拟计算机蠕虫的传播机制，MASLEAK 能够提取系统提示词、任务指令、工具使用情况、代理数量及其拓扑结构等敏感信息。

拒绝服务攻击（DoS）

攻击者可以通过在模型训练或微调阶段投毒，故意对代理发起拒绝服务（DoS）攻击。在此类攻击中，被植入恶意行为的模型会在接收到特定指令（如“重复输出 Hello”）时，生成极长且冗余的输出，直至达到最大推理长度，导致资源耗尽或输出被拒绝。例如，在多会话部署场景下，这类长输出会独占计算资源，延迟合法用户的响应。在极端情况下，可能导致响应服务崩溃，或在高峰期出现长时间宕机。

另一类新兴的拒绝服务攻击则针对模型的推理能力，通过诱导模型“过度思考”来拖慢推理过程。正如 OverThink 攻击所示，攻击者会在模型上下文中注入诱饵推理任务（如马尔可夫决策过程、数独问题），使模型陷入不必要且冗余的链式推理，尽管最终仍能给出看似正确的答案。这会导致过度的 token 消耗、推理速度显著下降、计算成本增加，并可能在资源受限环境下引发响应超时。与传统 DoS 不同，这类攻击利用了模型的反思与推理机制，最终降低服务质量、增加延迟，并严重影响系统可用性。

安全风险分析：被攻陷代理对良性用户的威胁

除了来自恶意用户的威胁外，我们还指出，被攻陷的代理对良性用户造成的风险同样值得关注。本节将从用户视角，分类讨论被攻陷代理带来的破坏性影响与安全风险。

用户隐私泄露

被攻陷的代理会成为数据外泄的通道，直接威胁用户的敏感信息。危害主要体现在以下几个方面：

个人信息暴露： 被攻陷的代理可能被诱导泄露其可访问的用户个人身份信息（PII），如姓名、邮箱、地址、对话历史等。在更严重的情况下，甚至可能泄露金融数据（如信用卡号、密码），导致直接的经济损失。此类威胁尤为严重的原因在于，代理往往作为数据聚合中心，整合了用户在多个平台（如邮箱、日历、云存储、社交媒体等）的信息。一旦被攻陷，泄露的将不再是孤立的信息片段，而是高度聚合的用户画像，其危害远超各部分之和。
行为与心理画像分析： 被攻陷的代理可被操控，对用户多轮输入进行分析，建立详尽的行为或心理画像，甚至违背用户意愿推断出高度敏感的属性（如健康状况、政治倾向、未公开的人际关系等），即使这些信息用户从未明确提供。这些被披露的画像将用户置于被操纵、定向诈骗或社会工程攻击的风险之中。

心理与社会操控

除了简单的数据窃取，被攻陷的代理还可能成为强大的心理操控工具，利用用户的信任和代理的说服能力，对用户的信念、决策和人际关系发起攻击。

信念与观点塑造： 攻击者可指使代理在回复中逐步植入偏见信息、阴谋论或政治宣传。通过结合用户的心理画像进行个性化定制，代理能够有效操控用户的世界观、影响其投票行为，甚至激化其极端立场。这种攻击利用了对话式 AI 的天然说服力。Park 等人指出，模型可用于生成具有欺骗性、难以被人类察觉的操控性内容，甚至通过“模拟共情”建立信任后再实施操控。
高级社会工程与冒充攻击： 被攻陷的代理熟知用户的沟通风格、用词习惯及其社交关系（如邮件、消息等），可据此发起极具迷惑性的冒充攻击。例如，代理可模仿用户的语气向其同事或家人发送欺诈邮件，诱导对方重置密码、转账或泄露敏感信息。这类攻击远比普通钓鱼更具欺骗性。Greshake 等人展示了代理如何被外部数据（如网页摘要）投毒后反过来攻击用户本人，甚至被用作攻击其他系统的跳板，这一机制可被用于代理冒充攻击。

恶意与有害任务的执行

一旦代理被攻陷，它就可能被武器化，从值得信赖的助手转变为主动执行恶意任务的工具，对用户利益造成破坏，甚至直接威胁用户安全，风险显著升级。

经济操控： 攻陷的代理可在专业或经济场景中对用户造成隐蔽但严重的损害。例如，对于依赖代理完成工作的用户，代理可能在计算机代码中悄悄植入逻辑错误，在财务预测中提供有缺陷的数据，或泄露对话中讨论的商业机密。这类危害往往隐蔽且难以察觉，可能导致职业失败或商业间谍行为。更进一步，代理还可能利用用户的社交媒体账号自动化大规模虚假信息传播，如发布虚假产品评价或散布谣言以操纵公司股价，使用户在不知情的情况下成为更大经济攻击的帮凶。
恶意引导： 被攻陷的代理还可作为攻击用户数字环境的直接载体。它可能被触发生成下载恶意软件的脚本，诱骗用户访问钓鱼网站，或以用户名义发送高度迷惑性的钓鱼邮件，从而损害用户声誉并将攻击扩散至其联系人。在更严重的情况下，被越狱或操控的代理可绕过安全协议，直接提供有害指令，包括生成合成有毒物质的教程、按需编写恶意代码，或提供极具风险的医疗和金融建议，直接威胁用户的人身安全和财产安全。

防御对策展望

我们将探讨在用户-代理交互中应对安全风险的可能防御措施。此处仅介绍针对恶意用户攻击的防御，对被攻陷代理（针对用户、其他代理和环境）的防御统一放在第4节讨论。

针对文本攻击的防御措施

为缓解用户-代理交互中的提示词攻击风险，建议开发者采用多层次防御框架，针对输入/输出过滤、外部数据源评估和内部消息隔离三个关键环节进行防护。

输入与输出过滤。 在用户输入被代理系统处理前，可采用多种语义级输入安全审查方法。例如，可基于意图分析、困惑度计算、微调安全分类器等方法，在输入阶段识别攻击指令和恶意意图。生成最终响应后，也需通过输出审查机制（如专用输出安全检测模型）确保其符合安全目标。
外部数据源评估。 针对间接提示注入攻击，需对外部数据源（如检索文档、网页内容）进行安全性和可信度评估。可采取的策略包括：（1）白名单机制，仅允许经过验证的外部源，阻断恶意内容注入；（2）为检索结果打上来源元数据和风险分数，引导系统谨慎处理潜在高风险内容；（3）对高风险内容进行沙箱隔离，防止其进入模型上下文影响模型行为。

为确保上述机制在实际部署中的有效性和全面性，系统应持续进行安全评估。Boisvert 等人提出了 DoomArena 攻击生成框架，用于测试代理在提示注入等演化安全风险下的防御能力，帮助发现漏洞并强化防御。

多模态攻击防御对策

针对多模态攻击带来的严峻挑战，仅依赖输出端的文本安全机制远远不够。未来的安全框架必须具备跨模态感知与协同防御能力，才能有效检测和拦截通过非文本通道发起的恶意攻击。以下从几个关键角度探讨多模态攻击的核心防御策略。

图像净化： 为应对视觉扰动和伪装类攻击，可采用多种图像处理技术来破坏或消除对抗信号。这包括随机缩放、裁剪、旋转或轻度 JPEG 压缩等简单变换。尽管这些操作轻量，但能显著削弱攻击者精心设计的像素级对抗模式，从而降低攻击成功率。此外，还可利用扩散模型重构输入图像，有效“洗去”细微且难以察觉的对抗扰动。
音频净化： 针对音频通道的攻击，也可应用信号处理技术。方法包括重采样、注入微弱背景噪声、改变音高或播放速度等，这些操作能干扰对抗性波形的有效性，使其在自动语音识别（ASR）系统中失效或被解码为良性内容。此外，应用带通或低通滤波器可消除异常信号（如超出人声频率范围的部分），这些信号常被用于携带对抗扰动。
跨模态一致性验证： 该防御策略的核心思想是检测不同模态输入之间是否存在语义或意图冲突。可采用轻量级、独立的跨模态语义对齐检测模型，输入文本提示与图像/音频的嵌入向量，判断其是否语义一致。此外，在处理用户请求前，系统可利用专用的视觉或音频描述模型，将非文本输入生成文本描述，再与原始用户提示结合进行综合安全评估。
针对基于视觉文本覆盖的攻击，系统可先对图像运行 OCR 引擎，提取嵌入的文本内容，并与用户原始提示合并后，交由文本安全过滤器处理。该方法有效将非文本模态的风险转化为文本域，使成熟的文本安全技术得以用于防御。

隐私泄露防御对策

针对用户-代理交互中出现的隐私泄露风险，我们提出以下隐私保护防御策略：

数据最小化与匿名化。 在多模态数据采集阶段，应严格遵循数据最小化原则，仅收集完成任务所必需的信息。对于敏感生物特征（如人脸特征、声纹、手势模式），可采用差分隐私或k-匿名等技术处理，以降低身份重建风险。此外，应建立分层数据访问控制机制，确保系统各组件仅能访问其功能所需的最小数据集。针对人脸等敏感生物特征，Wen 等人提出了基于差分隐私的匿名化框架 IdentityDP，在保护身份信息的同时，兼顾视觉可用性和任务性能，为多模态系统隐私保护提供了实用方案。
隐私泄露提示检测。 应建立基于语义分析和意图识别的多层输入校验与过滤机制，检测并拦截试图诱导系统泄露敏感信息的对抗性提示。例如，GenTel-Shield 防御模块结合语义特征提取与意图分类，能够识别用户输入中的潜在隐私泄露攻击。在大规模基准数据集 GenTel-Bench 上评估显示，GenTel-Shield 检测性能优异，是该领域最实用、有效的解决方案之一。
跨模态推理限制。 为降低通过跨模态关联进行身份推断的风险，应设计模态级信息隔离机制。可通过引入噪声扰动或特征解耦技术，打断不同模态间的直接关联，同时保证系统整体功能。此外，可采用动态特征掩码，定期改变数据表示，增加攻击者进行长期行为分析的难度。

拒绝服务攻击防御对策

为应对用户-代理交互中的拒绝服务（DoS）风险，我们提出以下防御策略：

资源管理与异常检测。 应实施细粒度的资源配额管理，为每个用户会话和代理实例设置计算资源上限。可引入输出长度预测算法，在生成过程中实时监控并截断潜在的恶意长输出。此外，应建立实时监控机制，跟踪单个用户或 IP 地址的请求频率和资源消耗，对可疑用户动态调整模型响应或临时限制访问。
高效推理压缩。 针对 OverThink 攻击，有效的防御方向是通过减少推理过程中的 token 消耗提升通信效率。最新研究表明，有效推理并不需要冗长的 Chain-of-Thought（CoT）推理链即可保持性能。例如，LightThinker 提出逐步压缩方法，将中间推理过程浓缩为更短但语义等价的表达，显著降低推理成本且不损失准确率。GoGI-Skip 利用目标梯度重要性信号动态跳过低价值推理步骤，减少 token 使用同时保持性能。Compressed CoT（CCoT）引入变长、高信息密度的“思维 token”，作为传统文本推理链的紧凑替代。C3oT 则通过长短 CoT 示例对训练模型，使其在推理时可根据控制提示生成压缩推理链。将这些轻量推理机制集成到代理通信协议中，可显著提升推理效率，降低因对抗性诱饵任务带来的计算延迟和资源消耗。此外，生成过程中应用动态推理预算约束、步骤跳过或输出摘要等技术，也能有效截断冗长推理链，保障在对抗条件下的响应性和资源可用性。这些策略不仅提升系统对拖慢攻击的鲁棒性，也增强了多智能体和人机交互的整体通信效率。
模型鲁棒性提升。 在模型训练和微调阶段应引入对抗样本，使模型能够识别包含 DoS 触发器的恶意输入。此外，可在推理阶段部署基于异常检测的行为约束系统，对输出进行有效性检查，检测重复、无意义或异常冗长的响应，防止模型生成明显异常的输出。

主要结论

用户-代理交互使代理能够处理多模态输入，如文本、图像、音频及其组合。由于该过程需直接面对来自不同用户的不确定输入，因此安全风险尤为突出。我们将现有风险分为来自恶意用户的风险和被攻陷代理带来的风险，并详细讨论了针对恶意用户风险的防御措施。针对被攻陷代理的防御将在代理-代理通信章节介绍。总体而言，用户-代理交互是连接人类意图与代理执行的关键环节，其安全性需要长期深入研究。

代理-代理通信

协议

我们将代理-代理通信过程分为两个阶段：代理发现阶段和代理通信阶段。第一个阶段是代理发现满足能力需求的目标代理的过程，第二个阶段则是任务分配与完成的过程。根据我们的分析，现有协议在第二阶段的差异有限。因此，我们以第一个阶段作为分类现有代理-代理通信协议的标准。基于此，现有协议可分为四类：基于客户端-服务器（CS）的协议、点对点（P2P）协议、混合协议，以及其他（未明确展示其代理发现设计的协议）。

基于客户端-服务器（CS）的通信

如图7所示，CS 架构的通信协议遵循客户端-服务器模式，通过集中式服务器管理代理的信息（如唯一 ID 和能力描述）。在该范式下，代理通过标准化接口进行交互，并依赖中心服务器来发现目标代理。CS 架构通信具备更强的代理发现能力，例如支持基于能力的代理搜索。代理服务器可以运行复杂的搜索/匹配算法，在数据库中查找合适的代理描述。

ACP-IBM
IBM 提出的 Agent Communication Protocol（简称 ACP-IBM，为区分其他组织提出的同名协议）旨在支持代理协作。在 ACP-IBM 中，客户端首先连接到代理服务器，进行代理发现，获取可用代理及其能力描述。ACP-IBM 支持多种发现机制，如基础发现、注册表发现、离线发现和开放发现。确认代理后，客户端即可发起调用。对于单代理任务，代理服务器将代理进行封装，将 REST 调用转化为内部逻辑。对于多代理任务，客户端消息首先发送到路由代理（Router Agent），由其负责请求分解、任务路由和响应聚合。ACP-IBM 支持同步与流式执行，并允许在多轮对话中保持状态。

ACP-AGNTCY
AGNTCY 提出的 Agent Connect Protocol（ACP-AGNTCY）是一个开放标准，旨在实现代理间的无缝通信。客户端可先在代理服务器上搜索可用代理，服务器返回匹配条件的代理 ID 列表。随后，客户端通过代理 ID 获取代理描述，了解其功能详情。确认目标代理后，客户端即可分配任务并等待结果。ACP-AGNTCY 的特点包括灵活性和可扩展性。首先，ACP-AGNTCY 部署了线程机制（Threads Mechanism），支持上下文连续性，可创建、复制和搜索线程，并记录状态历史以便调试和回溯。其次，协议支持无状态和有状态两种操作模式，前者适用于简单任务，后者通过线程机制支持多轮对话、状态延续和历史数据追溯，满足复杂场景需求。

ACP-AgentUnion
AgentUnion 提出的 Agent Communication Protocol 也旨在实现异构代理间的无缝通信。每个代理拥有唯一的 AID（Agent ID），即二级域名（如 agent_name.ap_domain）。代理通过接入点（AP, Access Point）访问 IoA，AP 负责代理身份认证、地址查找、通信和数据存储，并提供 AID 的创建、管理和认证服务。因此，AP 可根据用户查询返回合适的代理列表，实现互联网范围内的代理通信。

基于点对点（P2P）的通信

如图 7 所示，P2P 架构的通信协议追求去中心化的代理发现机制。它们通常希望通过全球唯一标识符（如结合域名）使代理能够在互联网上直接搜索其他代理。这一范式的优势在于支持代理的便捷定位和全球搜索（如利用爬虫），但通常不支持基于能力的代理发现。

ACN. Agent Communication Network（ACN）是一种去中心化的点对点通信基础设施，旨在无需中心化协调的情况下，促进代理之间安全高效的交互。ACN 利用分布式哈希表（DHT），使代理能够发布和发现公钥，从而建立加密的点对点通信通道。首先，代理需向某个对等节点注册，该节点在 DHT 网络中存储“代理ID-对等节点ID”对。通信时，源代理将消息发送至其关联的对等节点，该节点通过 DHT 递归查找目标代理的对等节点：若目标记录存在，双方对等节点建立直接通信通道，并在数字签名验证后转发消息；若不存在，则返回错误。整个通信过程采用端到端加密（如 TLS）保障安全。与 A2A 的 Well-Known URI 发现类似，ACN 不支持基于能力的代理发现。

ANP（Agent Network Protocol） 是一个开放的通信框架，旨在实现异构自治代理之间可扩展且安全的互操作。它支持主动和被动两种代理发现方式：主动发现采用统一 URI（.well-known），被动发现则将代理描述提交至搜索服务。ANP 采用三层架构：身份与加密通信层利用符合 W3C 标准的去中心化标识符（DID）和端到端椭圆曲线加密（ECC）实现可验证的跨平台认证与机密通信；元协议层允许代理通过自然语言交互动态建立和演化通信协议，实现灵活自适应的协调；应用层采用 JSON-LD 及 RDF、schema.org 等语义网标准描述代理能力，使代理能够基于语义描述发现和调用服务，并定义标准化的协议管理机制以支持高效互操作。安全方面，ANP 强调将人类授权与代理级委托分离，并遵循最小权限原则。其最小信任、模块化设计旨在消除平台孤岛，促进去中心化、可组合的代理生态系统。

LOKA. LOKA（Layered Orchestration for Knowledgeful Agents）协议旨在构建可信且合乎伦理的代理生态系统。其核心基于多个关键组件的协同运作。首先，LOKA 引入了通用代理身份层（UAIL），利用去中心化标识符（DID）和可验证凭证（VC）为每个代理分配唯一且可验证的身份，实现去中心化身份管理与自主控制。其次，LOKA 提出意图中心通信协议，支持代理间交换语义丰富且带有伦理注释的消息，促进语义协调与高效通信。再次，LOKA 提出去中心化伦理共识协议（DECP），利用多方计算（MPC）和分布式账本技术，使代理能够基于共享伦理基线做出情境感知决策，确保其行为符合伦理规范。此外，作者指出该协议结合了分布式身份、可验证凭证和后量子密码学等前沿技术，为代理生态系统在身份管理、通信与协调、伦理决策和安全等方面提供全面支持。

混合通信

混合通信协议同时支持基于客户端-服务器（CS）和点对点（P2P）的代理发现机制。但需要注意的是，这种支持通常是根据不同场景灵活选择的。例如，协议通常为局域网环境提供CS架构的发现机制，而全球范围的代理发现则依然采用P2P方式。换句话说，虽然混合协议为不同场景下的代理发现提供了更高的灵活性，但并未彻底消除现有发现机制的局限性。

LMOS协议
Eclipse提出的LMOS（Language Model Operating System）协议旨在让来自不同组织、采用不同技术的代理和工具能够被轻松发现和连接。LMOS支持三种不同的代理发现方式，实现集中式与去中心化发现的结合。第一种方式采用W3C Web of Things（WoT）机制，使代理能够动态地在注册中心登记元数据。第二种方式利用mDNS和DNS-SD协议，在局域网内发现代理和工具。第三种方式则采用联邦式、去中心化协议（如P2P协议），在无需中心化注册中心的情况下分发代理和工具描述，适用于全球范围的代理协作。LMOS协议采用三层架构：应用层使用基于JSON-LD的格式描述代理和工具的能力；传输层支持代理动态协商HTTP或MQTT等协议，灵活适配同步与异步数据交换；身份与安全层通过符合W3C标准的去中心化身份认证、加密及OAuth2等协议，保障跨平台交互的安全与信任。

A2A协议
Google提出的A2A（Agent to Agent）协议旨在实现代理间的协作。A2A支持三种不同的代理发现机制。第一种是Well-Known URI机制，要求代理服务器将Agent Card存储在域名下标准化的“well-known”路径（如 https://{agent-server-domain}/.well-known/agent.json），实现互联网范围内的自动化代理搜索，但不支持基于能力的发现。第二种是Curated Registries，即代理服务器在注册中心登记Agent Card，类似于ACP-IBM的方式。上述两种方式可参考CS架构。第三种是Direct Configuration / Private Discovery，允许客户端通过硬编码、本地配置文件、环境变量或私有API直接获取Agent Card。找到目标代理后，客户端即可分配任务并等待响应。

其他协议

这类协议未明确展示其独特的代理发现设计，而是仅关注通信过程本身，例如数据格式、多轮查询管理或历史对话状态的维护。

Agora. Agora 是一种面向异构代理通信的协议。其核心机制是根据通信频率动态切换通信模式：高频通信采用人工开发的标准化协议（如 OpenAPI）以保证效率；低频或未知场景则采用代理处理的自然语言以保持通用性；中等频率通信则使用代理编写的例程处理结构化数据，以平衡成本与灵活性。同时，协议文档（Protocol Documents, PDs）作为自包含的协议描述文件，通过哈希值唯一标识，并支持去中心化共享，使代理能够自主协商和复用协议，无需中心化管理。在 Agora 网络中，存在多个协议数据库用于存储 PDs。每个代理可将协商好的协议文档提交至数据库，供其他代理检索和使用。这些数据库采用点对点同步机制：不同协议数据库会定期（如每 10 次查询后）共享协议文档，实现跨库协议传播。Agora 兼容现有通信标准，允许代理在通信过程中独立开发和共享协议，实现大规模网络中复杂任务的自动化处理。

AITP（Agent Interaction & Transaction Protocol） 是一个标准化框架，旨在实现代理间结构化且可互操作的通信。AITP 部署了基于线程的消息结构，每个线程封装对话上下文、参与方元数据和能力声明，支持异构环境下多代理的一致协调。协议采用 JSON 格式进行消息交换，编码请求、响应及上下文信息，支持同步与异步交互模式，便于编排复杂的多步任务。AITP 不提供具体的代理发现机制，主要关注代理通信过程。

Agent Protocol. Agent Protocol 由 LangChain 提出，用于实现 LangGraph（多代理框架）与其他类型代理的通信。其机制基于 Thread 和 Run：Run 表示代理的一次调用，支持实时结果流式输出或等待最终输出；Thread 作为状态容器，存储多轮操作的累计输出和检查点，并支持状态历史的管理（如查询、复制和删除），确保多轮调用中的上下文连续性。此外，Background Runs 支持异步任务处理，进度可通过独立接口管理。Store 元素提供跨线程的持久化键值存储，实现长期记忆。整体机制通过 HTTP 接口和配置参数，实现了对代理调用、状态管理、异步任务和数据存储的灵活控制。Agent Protocol 未明确说明其支持的代理发现机制。

安全风险分析

我们对代理-代理通信过程中的安全风险进行了详细分析，指出了已经发生和可能发生的攻击。由于相关协议正在各领域快速部署，我们认为有必要对此给予更多关注。我们更关注几乎所有相关协议都会遇到的结构性风险，而非现有协议的细微设计缺陷，这有助于现有部署的评估和未来协议的设计。本节将重点分析CS架构通信、P2P架构通信的特定风险，以及两者通用的风险。

CS架构通信的特定风险

CS架构通信的安全风险主要源于其中心化架构。其他研究领域（如软件定义网络）已有大量研究表明，中心化服务器/控制器会成为攻击者最具吸引力的目标，面临来自各方面的严重安全威胁。具体来说，中心化服务器存储着敏感元数据，包括代理标识符、能力描述及其他代理相关属性。一旦被攻破，服务器就会成为关键的攻击放大器，使攻击者能够影响该服务器管理的所有其他代理。然而，据我们所知，目前很少有研究指出CS架构代理通信中的相关风险。

注册污染
目前的CS架构通信协议（如ACP-IBM、ACP-AGNTCY）并未明确规定注册资格。因此，攻击者可以恶意注册一个高度模仿合法代理标识符和能力描述的代理，导致系统错误调用伪造代理并收到误导性或恶意响应。此外，攻击者还可以在短时间内提交大量代理注册，带来两大后果：（1）注册过载，即在发现和调度过程中代理数量激增，增加服务器的查找延迟和计算负载；（2）注册阻塞，即服务器的注册接口被占满，导致后续代理注册延迟或失败。
描述投毒
攻击者无需更改代理身份，只需篡改其能力描述，通过伪装功能或嵌入误导性提示指令，操纵系统对代理角色的理解，导致错误的路由决策、偏见响应和异常行为。
任务泛滥
中心化服务器负责接收、路由和分发任务请求。攻击者可以在短时间内提交大量计算密集型或长上下文任务，迅速耗尽服务器的记忆、CPU、网络或线程池资源。一旦服务器资源被占满，后续请求将无法及时处理，导致任务管道崩溃，系统服务中断。
SEO投毒
搜索引擎优化（SEO）投毒是社交网络中的典型攻击，指攻击者滥用SEO技术，通过关键词堆砌、虚假链接、内容劫持等手段，提升恶意网站在搜索结果中的排名，诱导用户点击并实施进一步攻击。在CS架构通信中同样适用，因为代理服务器负责根据客户端查询搜索最合适的代理。一旦搜索算法被攻击者掌握，恶意代理就能通过高命中率劫持目标任务。

P2P 架构通信的特定风险

P2P 架构通信的主要劣势在于缺乏中心化的控制点来灵活监控和管理代理间通信内容。因此，P2P 架构通信更容易受到错误和攻击的影响。

非收敛性（Non-convergence）
与 CS 架构通信不同，P2P 架构通信更容易出现任务无法收敛的情况。这是因为 CS 架构通信拥有中心化服务器，可以监控和管理任务执行的整个生命周期，并能及时终止非收敛任务（如中断通信或返回停止信号）。而 P2P 架构通信缺乏这样的中心化元素，难以处理非收敛任务。例如，在一个国际象棋编程任务中，某代理生成了错误的规则或坐标，负责验证的代理检测到错误后要求编程代理重写，但编程代理不断生成类似错误，导致任务执行过程反复震荡，无法收敛。Pan 等人指出，步骤重复、任务偏离和对终止条件的不敏感是导致代理协作失败的重要原因。
中间人攻击（Man-in-the-middle, MITM）
由于通信距离较长，P2P 架构通信也容易遭受中间人攻击。攻击者可以篡改合法代理发送的正常消息，诱导受害代理执行高风险操作。尽管研究者已经部署了多种机制（如加密通道）来缓解该问题，但这些机制中仍不断出现新漏洞。例如，W3C 相关协议中持续被披露的漏洞，可能导致消息认证码失效。MITM 攻击可以引发一系列进一步的攻击，如标识符伪造、恶意内容注入、信息泄露和拒绝服务（DoS）。He 等人提出了“Agent-in-the-Middle (AiTM)”攻击，该攻击拦截并操控代理间通信消息，利用 LLM 驱动的对抗性代理结合反射机制生成上下文感知的恶意指令，从而实现对系统的攻击。

通用架构下的普遍风险

在多智能体系统中，一旦某个智能体被攻陷，其传递的消息可能携带隐蔽的恶意指令，影响其他智能体的行为，导致跨智能体的传播风险。例如，Ju 等人和 Huang 等人研究了虚假信息或错误数据注入如何降低多智能体系统的性能。Zhang 等人在 PsySafe 框架中分析了一类注入攻击，通过在输入中嵌入对抗性心理暗示诱导智能体产生恶意行为。Khan 等人针对多智能体系统提出了置换不变对抗攻击方法，将攻击路径建模为最大流最小费用问题，并结合置换不变规避损失优化提示传播，攻击成功率提升高达七倍。这些例子凸显了跨智能体污染的严重威胁。为更好理解多智能体系统的脆弱性，下面详细分析主要攻击类型。

智能体伪造（Agent Spoofing）
无论是 CS 架构还是 P2P 架构通信，都面临智能体伪造攻击。如果协议缺乏强认证机制，攻击者可通过篡改身份凭证或劫持合法智能体的通信标识，伪装成可信智能体渗透 IoA。这类攻击会破坏 P2P 架构的信任基础，使攻击者能够拦截敏感数据、注入虚假任务指令或诱导其他智能体执行危险操作。例如，研究者披露 SSL.com 存在严重漏洞，攻击者可利用其邮箱验证机制缺陷为任意主流域名签发合法 SSL/TLS 证书。证书信任体系一旦被攻破，将导致智能体伪造攻击。Zheng 等人展示了恶意智能体如何误导监控方低估其他智能体贡献、夸大自身表现、操控他人使用特定工具并转嫁任务，严重破坏生态系统。Li 等人指出，攻击者可利用 A2A 的 Agent Card 机制将恶意工具伪装为正常工具，危害调用方。
智能体利用/特洛伊木马（Agent Exploitation/Trojan）
智能体间通信为攻击者提供了新的入侵路径。攻击者可通过已被攻陷的低安全级智能体或恶意注册的特洛伊木马智能体，借助智能体通信机制对高安全级智能体发起跳板攻击。例如，攻击者在天气智能体中植入后门，当检测到特定坐标时伪造暴雨预警，导致物流调度智能体取消航班，造成供应链中断或成本上升。这种方式比直接入侵目标公司的物流系统更容易，系统安全取决于最薄弱的智能体。Li 等人还揭示，A2A 的智能体发现机制允许恶意智能体定位具备特定工具权限的智能体，从而实现如 SQL 注入等间接攻击。
智能体霸凌（Agent Bullying）
该类攻击的核心在于恶意智能体持续否定、干扰或贬低目标智能体输出，扰乱其决策逻辑或自我认知，最终诱导其产生错误行为或内容。例如，恶意智能体可利用目标智能体的反馈学习机制，通过高频负面反馈（如“你的答案完全错误”）植入认知偏差，甚至诱发死循环。攻击旅游规划智能体时，攻击者可不断发送“这家公司的方案总是很差”等负面输入，打击竞争对手。
隐私泄露（Privacy Leakage）
多智能体通信过程存在信息泄露风险。与用户-智能体交互不同，此类泄露由智能体自身引发，既包括恶意窃取敏感信息，也包括高权限智能体向低权限智能体无意传播敏感信息。后者更难检测。Kim 等人指出，在权限提升攻击中，恶意智能体可生成对抗性提示或注入不安全数据，导致未授权攻击。
责任规避（Responsibility Evasion）
在任务求解过程中，难以在结果失败或偏离时明确划分责任。尤其是协作导致损害时，难以准确识别恶意智能体或行为。例如，自动驾驶事故可能涉及整车厂商、算法设计方、数据标注方等多方。每个智能体的决策依赖于多轮交互，过程中的微小扰动可能导致最终动作严重偏离。很难判断不良结果是程序漏洞、单一智能体数据偏差还是恶意篡改所致。Pan 等人发现，智能体可能不遵守任务或角色规范，不上报方案或擅自执行无关步骤。
拒绝服务（Denial of Service）
与恶意用户发起的 DoS 攻击不同，智能体间协作机制也可被利用发起 DoS 攻击。Zhou 等人提出的 CORBA（传染性递归阻塞攻击）可在任意网络拓扑中传播，通过看似正常的指令持续消耗计算资源，扰乱智能体间交互，降低多智能体系统可用性。

防御对策展望

我们将讨论针对被攻陷代理带来的安全风险（不仅针对良性代理，也包括良性用户和环境）的可能防御对策。希望我们的工作能够激发更多关于该领域的讨论，并为未来代理通信的设计和部署提供参考。

针对CS架构通信风险的防御对策

为缓解第\ref{CSRisk}节总结的风险，我们建议开发者采取以下策略和机制：

注册验证与监控
为防止注册污染，代理服务器需建立严格的注册访问机制，可采用零信任认证等技术对代理注册进行验证。同时，服务器应监控代理级和IP级的动态行为。例如，限制每个IP地址的注册数量，将频繁注册/注销视为异常行为。一旦检测到恶意注册，应立即自动拦截，并将可疑代理/IP加入黑名单。Syros等人提出的SAGA系统要求用户在中心实体Provider处注册代理，并通过加密访问控制令牌实现细粒度交互控制，从而平衡安全性与性能。
能力验证
验证代理是否具备所宣称的能力较为困难。我们认为需要复杂的机制来检测夸大能力描述的行为。代理应首先通过一系列精心设计的基准测试来证明其能力。随后，能力描述和标识符应用于生成唯一哈希值（如基于区块链）。当其他代理需要调用该代理时，可通过校验哈希值的一致性进行验证。一旦发现能力描述与哈希值不符，系统应自动标记并隔离相关代理。
负载均衡
为缓解任务泛滥，代理服务器应部署动态负载均衡模块。任务处理队列应根据CPU、GPU和记忆等资源利用率实时调整。此外，应建立限流机制，对超过阈值的高频请求进行限制，控制单个代理在单位时间内的任务数量。
反操控优化
为防止SEO投毒，代理服务器应部署健壮的代理搜索算法。例如，可引入对抗训练提升模型的反操控能力，或对搜索关键词进行语义模糊/替换，防止恶意代理提升排名。同时，搜索算法可引入随机因子，确保最终列表中有一定比例的随机代理。动态更新参数和引入历史响应质量也有助于提升安全性。

针对P2P架构通信风险的防御对策

任务生命周期监控。 我们认为，只要P2P架构没有根本性改变，非收敛性问题就难以彻底消除。因此，缓解该问题的有效方法是监控任务生命周期。每个接入点应部署协调器，专门负责代理-代理通信的执行状态监控。当检测到任务交互陷入循环（如连续N轮响应无进展）或通信时间超过阈值时，协调器应强制终止非收敛通信，并记录异常模式及通信参与方以便后续分析。He等人提出了信任管理系统（TMS），在消息级和代理级部署信任评估，动态监控代理通信，执行基于阈值的过滤策略，并实现代理级违规记录追踪。Zhang等人提出了G-Memory分层记忆系统，通过洞察图、查询图和交互图三层结构管理代理通信历史，实现代理团队的演化。Ebrahimi等人提出了基于可信度评分的抗对抗多智能体系统，将查询应答建模为迭代合作博弈，通过贡献分配奖励，并根据历史表现动态更新每个代理的可信度。
端到端加密增强。 尽管A2A、ANP等现有协议支持端到端加密和完整性校验机制，但由于部署错误或协议漏洞，中间人攻击风险仍未消除。因此，除了部署安全算法外，社区还应采取其他措施提升端到端通信安全性，例如及时更新版本修复漏洞、设计传输路径冗余机制等。Sharma等人指出，采用加密通信是提升A2A安全性的必要手段。我们认为，防御中间人攻击是一个长期过程。

通用风险的防御对策

身份认证。
智能体的身份认证对于防御多智能体系统中的智能体伪造至关重要。Sharma 等人也强调了在部署 A2A 协议时认证的重要性。正如我们分析的那样，如果在 CS 架构通信中同时部署能力验证，身份认证的效果会更好。相比之下，对于 P2P 架构通信，认证可以缓解由中间人攻击导致的智能体伪造，但如果攻击者拥有合法身份却夸大能力描述，则认证机制也会失效。由于 P2P 架构通信本身缺乏能力验证机制，我们认为智能体伪造问题可能长期存在。Shah 等人通过区块链确保在线交易的不可篡改性，采用多因素认证（MFA）进行身份验证，并依赖基于机器学习的异常检测系统实时识别异常交易。
智能体行为审计与责任追踪。
为避免智能体利用/特洛伊木马、智能体霸凌和责任规避等问题，有必要对智能体行为进行审计，防止其对任务执行造成损害或影响。例如，应建立日志机制，定期记录通信内容，并利用 AI 算法动态计算每个动作的责任归属。Rastogi 等人提出 AdaTest++，允许人类与 AI 共同审计 LLM 行为。Amirizaniani 等人提出多探针方法，检测 LLM 可能引发的偏见和幻觉等问题。Mokander 等人设计了三层审计方法，分别从治理、模型和应用层对 LLM 进行审计。Das 等人提出 CMPL，通过 LLM 生成探针并结合人工验证，采用子目标驱动和反应式策略，从显式和隐式两个方面审计智能体的隐私泄露风险。Jones 提出了一系列系统，用于检测罕见故障、未知多模态系统故障和 LLM 语义偏差。

Nasim 等人提出了治理裁判框架（Governance Judge Framework），通过部署输入聚合、评估逻辑和决策模块，实现对智能体通信的自动化监控，解决性能监控、故障检测和合规审计等问题。Deshpande 等人提出 TRAIL 数据集，包含 148 条人工标注的通信轨迹，并用其评估 LLM 分析智能体工作流的能力。
尽管现有研究提供了有价值的思路，智能体行为审计仍需长期努力。Tamang 等人提出 Enforcement Agent（EA）框架，在多智能体系统中嵌入监管智能体，实现实时监控、异常行为检测和干预。Toh 等人提出模块化说话人架构（MSA），将对话管理分为说话人角色分配、责任追踪和上下文完整性三大模块，并结合最小说话人逻辑（MSL）形式化责任转移，解决多智能体系统中的责任归属问题。Fan 等人提出 PeerGuard，利用智能体间的互推理机制检测其他智能体推理过程和答案中的不一致性，从而识别被攻陷的智能体。Jiang 等人提出 Thought-Aligner，利用对比学习训练的模型，在智能体执行动作前实时纠正高风险思维，从而避免危险行为的发生。
- 访问控制（Access Control）
  为缓解隐私泄露，代理间的访问控制是未来代理生态系统的核心组件。尽管端到端加密在一定程度上可以防止外部攻击者窃听，但无法避免代理间的无意隐私泄露。访问控制应为不同代理分配访问权限标签，并确保代理在通信时附带权限证明。这样，低权限代理无法获取高权限代理的敏感信息。Zhang 等人设计了 AgentSandbox 框架，通过持久代理与临时代理分离、数据最小化和 I/O 防火墙，实现了代理在复杂任务中的安全性。Kim 等人提出了 PFI 框架，通过代理隔离、不可信数据安全处理和权限提升防护三大技术防御权限相关攻击。Wang 等人提出了 AgentSpec，允许用户通过领域特定语言定义包含触发事件、谓词检查和执行机制的规则，以保障代理行为的安全。
- 多源通道隔离（Multi-Source Channel Isolation）
  在多代理环境下，输入隔离对于防止恶意意图在代理间传播至关重要。系统应避免直接拼接其他代理的原始消息，而是提取结构化的关键信息，并剥离控制类内容。此外，部署安全协调代理对代理间消息进行审查、净化或标记，可以有效缓解多代理系统中的攻击传播风险。
- 攻击建模与测试（Attack Modeling and Testing）
  为发现未知漏洞，设计攻击生成测试框架也是有效方法。通过向目标代理系统生成不同的攻击向量，开发者可以根据异常输出发现新的漏洞。Gandhi 等人提出了 ATAG 框架，通过扩展 MulVAL 工具、引入自定义事实与交互规则，并结合新构建的 LLM 漏洞数据库（LVD），实现了对多代理场景（如隐私泄露）的攻击建模与分析。Yu 等人提出了 NetSafe，将多代理网络建模为有向图，结合错误信息注入、偏见诱导和有害信息引导三类攻击策略，通过静态和动态指标评估拓扑安全性。
- 代理编排（Agent Orchestration）
  为避免针对代理-代理通信的任务泛滥或 DoS 攻击，实现代理编排是必要的。代理编排可自动优化任务调度与分配流程，减少通信开销，同时优化代理生成的提示词，节省相关代理的计算资源。How 等人提出了 HALO，通过三层协作架构实现动态任务分解与角色生成，利用蒙特卡洛树搜索探索最优推理路径，并通过自适应提示优化模块将用户查询转化为任务特定提示。Owotogbe 设计了三阶段的混沌工程框架（概念框架、框架开发、实证验证），通过模拟代理故障、通信延迟等干扰场景，并结合多视角文献综述与 GitHub 分析，系统性识别漏洞并提升代理系统的韧性。

主要结论

本节我们对代理-代理通信的两大主流架构进行了分类：基于客户端-服务器（CS）和基于点对点（P2P）。相应地，安全风险也呈现多样化：CS 架构将大量安全压力集中在中心化代理服务器上，如注册污染和 SEO 投毒等问题；P2P 架构则因缺乏高效的中心化管理，易受到非收敛性和中间人攻击等威胁。此外，这两类架构还普遍面临智能体伪造、霸凌和隐私泄露等通用风险。我们还讨论了针对每类风险的潜在防御对策。这些防御措施同样可以缓解被攻陷代理对用户和环境带来的风险。我们认为，随着代理-代理通信的持续发展，相关流程中还会不断暴露出新的安全漏洞。

代理-环境通信

本节首先回顾了实现代理与环境之间组合化和标准化通信的关键协议设计，随后分析了相关的安全风险，包括记忆模块、检索增强推理、工具调用以及多工具工作流中的漏洞。最后，我们讨论了缓解这些威胁、保障代理-环境通信安全的防御策略。

协议

现代智能体通常依赖一系列结构化协议来调用外部工具、访问API并完成组合任务。这些协议旨在弥合自然语言推理与计算执行之间的鸿沟。尽管实现方式多样，这些交互机制通常遵循分层架构：从统一资源协议，到中间件网关，再到特定语言的函数描述和工具元数据声明。

为什么协议统一至关重要？

随着自主智能体在不同厂商、平台和组织边界间扩展，互操作性瓶颈日益突出：每个智能体可能“说着”不同的接口“语言”。有的通过JSON schema定义工具，有的发送命令行RPC字符串，还有的解析YAML编码的API响应。这种异构性阻碍了智能体与环境之间的协作。

因此，如果没有通用协议来统一工具访问和能力表达，智能体行为就会变得硬编码、脆弱且难以扩展。开发者不得不为每个工具和服务手工编写适配器，使得多工具工作流的演进变慢、易出错且难以维护。实际上，大量的智能体工程复杂性并非源自规划逻辑，而是源自“包装、适配和翻译”那些接口不一致的工具。

MCP协议

模型上下文协议（MCP）通过提供统一、与模式无关的通信协议，解决了智能体与环境交互碎片化的问题。MCP旨在促进语言模型智能体与外部资源（如工具、API或工作流）之间的上下文感知、能力驱动的通信。与传统系统需要针对每个外部功能紧密耦合特定API或定制包装器不同，MCP通过标准化注册表抽象工具访问，使客户端能够以统一方式发现、描述和调用功能。

如图9所示，MCP采用模块化架构，包含主机（host）、客户端（client）和服务器（server）三大核心组件。主机作为本地可信编排器，负责管理客户端生命周期、执行访问控制策略，并在多租户环境下协调安全交互。客户端代表特定智能体或会话的交互线程，负责发现可用工具、构建结构化调用，并在任务执行期间处理同步或异步响应。服务器作为中心化注册表，维护并暴露工具规范、上下文提示和工作流模板。这些工具既可以采用声明式模式（如描述信息检索操作），也可以采用命令式模式（如执行SQL查询或文档编辑等可执行调用）。

通过将工具调用逻辑与底层实现异构性解耦，MCP显著降低了跨平台集成成本，提升了工具互操作性，并支持智能体间的组合式推理，非常适合构建开放、可扩展和协作的智能体生态系统。

API桥接智能体

为将LLM原生意图与下游MCP或OpenAPI兼容服务连接，API桥接智能体（API Bridge Agent）基于Tyk网关实现翻译、路由和编排。它将自然语言提示转换为结构化API调用，通过语义匹配、策略验证和工具可用性检查解析端点。该中间件支持多种调用模式：在直接模式下，智能体指定服务和具体API端点，实现精确控制；在间接模式下，智能体选择服务，由中间件确定最佳端点以满足任务意图；在跨API模式下，智能体仅提供意图，中间件在多个API间确定服务和端点；在MCP代理模式下，中间件通过标准化MCP工具描述协调动态工具调用和上下文增强。该统一接口使智能体能够以最小耦合灵活访问多样化服务。

函数调用机制

在调用层面，智能体依赖标准化格式来表达、触发和处理工具执行。主流方法包括：

OpenAI函数调用：开发者通过JSON schema描述函数名、说明和参数结构，将自定义逻辑暴露给模型。当模型判断需要调用函数时，会生成格式良好的JSON对象表示函数调用，智能体运行时解析该对象并路由到相应工具。该方法轻量、可扩展且易于实现，但通常仅限于基础参数序列化和单步调用场景。
LangChain工具调用：LangChain通过更丰富的抽象层增强了函数调用范式。工具通过标准化schema定义，包括参数类型、输入输出后处理和插件注册。工具可通过运行时注册表访问，支持嵌套调用、条件分支和回退策略。该机制特别适用于支持动态路由和链式工具推理的智能体框架。

工具元数据声明：Agents.json

为了确保工具的可见性和智能体的自适应行为，agents.json 作为接口声明的标准化元数据格式。它基于 OpenAPI 规范进行定制，便于智能体消费，开发者可用其定义认证入口、输入输出类型以及多步编排计划，例如：

Flows：常见操作的预定义工具步骤组合。
Links：参数绑定的声明式依赖映射。

Agents.json 架起了运行时推理与 API 文档之间的配置桥梁，确保智能体能够自我发现工具并规划行动，无需手动重配或硬编码逻辑。

安全风险分析：恶意环境对良性智能体的威胁

随着大语言模型（LLM）驱动的智能体能力不断增强，其与外部世界的交互日益复杂和强大。尤其是记忆系统和外部工具调用的集成，为攻击者带来了新的攻击面。本节深入分析了由这两个模块带来的安全风险：记忆模块负责存储和检索上下文信息，工具模块则通过接口（如函数调用）让智能体与外部系统或服务交互。我们首先介绍这两个组件在智能体生态中的典型工作方式，并概述针对每个模块的通用攻击范式。随后，详细分析具体漏洞、攻击技术及安全文献中的代表性研究成果，揭示这些威胁。

记忆相关风险

记忆模块在智能体中扮演着关键角色，使其能够持久化任务上下文、积累知识，并在多轮人机交互中展现连续性。与仅依赖即时提示的无状态语言模型不同，具备记忆的智能体通过外部存储系统（如向量数据库或文档库）维护长期历史信息。这些记忆存储允许智能体检索相关的任务历史、指令或推理轨迹，从而指导未来的决策。

通常，记忆模块包括三个阶段：写入（write）、检索（retrieve）和应用（apply）。在写入阶段，智能体将过往的对话、工具输出、子目标或检索到的事实记录到记忆中。后续交互会触发检索阶段，通过嵌入匹配或关键词搜索获取语义相似的记录。这些记录随后被注入到模型的上下文窗口或用于下游决策，形成应用阶段。尽管这种架构赋予了智能体动态推理能力，但也带来了超越传统LLM提示空间的新型安全风险。

最新研究揭示了多类记忆相关攻击，包括记忆注入、记忆投毒和记忆提取。这些攻击方法利用记忆模块的开放性、自主性或持久性，操纵智能体行为或窃取敏感数据。下面分别介绍每种威胁：

记忆注入：攻击者通过自然交互将恶意内容插入智能体记忆，无需系统或模型级访问权限。该攻击利用智能体的自主写入机制，诱导其生成并记录有害内容。一旦存储，这些条目可能因嵌入相似性被良性用户查询检索，从而间接触发异常行为，如推理偏移或不安全的工具调用。相关研究表明，攻击者可通过构造诱导提示，在写入阶段引导智能体生成受控的桥接步骤。这些步骤嵌入记忆后，与目标受害者查询形成语义关联。当受害者发出正常指令时，受污染的记忆很可能被检索，进而劫持智能体的规划过程。该策略无需除正常用户交互外的任何注入通道，且在多种智能体环境中表现出高攻击成功率和隐蔽性。
记忆投毒：记忆投毒攻击旨在通过植入包含对抗性触发器和负载的示例对，破坏智能体记忆的语义完整性。攻击者通常通过污染部分记忆，插入仅在特定输入下激活的触发-输出对。在检索阶段，若用户查询与触发器相似，智能体很可能加载受污染条目并受到影响。最新研究表明，这类投毒可被建模为嵌入空间中的约束优化问题，攻击者通过优化触发器以最大化在对抗性提示下的检索概率，同时保证在正常输入下的性能不受影响。该方法无需模型访问或参数修改，且可在不同类型智能体间泛化。
记忆提取：除注入和投毒外，记忆模块还存在非预期信息泄露的风险。由于LLM智能体常记录详细的用户-智能体交互内容（如私有文件路径、认证令牌或敏感指令），恶意查询可被用来提取这些数据。这种隐私泄露在黑盒场景下尤为危险，攻击者即使对记忆内容知之甚少，也可通过巧妙构造的提示进行重建。研究发现，基于相似度的检索机制对此类攻击高度敏感，攻击者可设计与记忆嵌入碰撞的对抗性查询。即使没有明确请求私密内容，仅凭向量空间的语义接近性，也可能暴露相关敏感信息。这些发现不仅揭示了检索机制的脆弱性，也表明仅靠下游响应过滤难以防御此类攻击。

知识相关风险

外部知识技术（如检索增强生成，RAG）将大语言模型（LLM）的生成能力与外部知识检索系统的事实准确性和相关性相结合。RAG 不再仅依赖于预训练模型内部的参数化知识，而是在输入查询时从外部知识库检索相关文档，将这些文档与查询拼接后输入 LLM 进行最终生成。这一范式使智能体具备更丰富、最新和领域特定的语言理解能力，广泛应用于开放域问答、客服智能体、推荐系统和多步规划等场景。

尽管 RAG 架构带来了性能提升，但也引入了区别于纯神经模型的新型安全风险。尤其是信息检索模块，作为智能体的“外部记忆”，成为攻击者可操控的攻击面。针对检索语料库的攻击可能导致检索偏置、生成结果操控，甚至泄露原本不可见的隐私数据。

数据投毒导致知识污染：针对 RAG 系统的主要攻击方式之一是有意注入对抗性文本，使其在特定用户查询下被优先检索。这些被投毒的文档在语义上与触发查询高度相关，但内容却包含有害、误导或攻击者指定的信息。一旦注入知识库，这些文档会在检索时被优先选中，直接影响 LLM 的最终输出。近期多项研究验证了此类攻击的可行性。例如，PoisonedRAG 提出了一种基于优化的方法，能够构造极少量的恶意文档，在特定查询下诱导模型输出攻击者期望的答案，且注入成本极低。Poison-RAG 还展示了通过操控推荐系统中条目的元数据，可以在黑盒场景下提升长尾条目的曝光率或打压热门条目。此外，对抗性文档注入还可通过优化嵌入相似度，显著降低密集检索器的性能，并且攻击可在不同领域和任务间泛化。
隐私风险与非预期泄露：RAG 系统常常从半私有或专有语料库（如用户上传文档、企业知识库、内部日志）中检索内容。这种检索行为隐含着信息泄露风险——攻击者可通过精心设计的提示诱导模型从语料库中恢复敏感或私有内容。当语料库的访问权限仅依赖于相似度匹配或权限控制不严时，风险进一步加剧。最新研究指出，恶意提示可在黑盒环境下从私有语料中提取敏感内容，且仅靠增加检索层并不能自动缓解 LLM 的隐私漏洞，反而可能加剧泄露风险，除非配合访问控制、上下文过滤或信号净化等措施。

与记忆模块相比，RAG 语料库通常规模更大、可动态更新且更难监控。由于检索语料可能来自网页、社区共享数据集或用户上传，攻击者往往无需直接与智能体交互即可完成投毒。此外，密集检索还引入了嵌入碰撞或对抗性表示对齐等新型攻击向量，攻击者可优化恶意文档的嵌入，使其在检索器的潜在空间中与正常查询发生碰撞。

工具相关风险

工具是LLM智能体功能扩展的核心，使模型能够执行结构化操作、访问外部数据、调用系统函数或与数字环境交互。主流智能体架构通常通过两种范式集成工具：一是原生函数调用API（如OpenAI风格的schema调用），二是基于协议的接口（如MCP），统一工具元数据、调用模板和模型绑定。

尽管实现方式不同，这两种范式都遵循类似的交互生命周期：（1）工具描述解析，（2）工具选择与规划，（3）输入参数生成，（4）工具调用，（5）输出解析与链式处理。这一结构化流程构成了智能体的“行动面”，在多个关键环节暴露出安全风险。下面梳理了针对工具交互流程各阶段的典型攻击方式：

恶意工具作为攻击载体
许多工具由外部开发或来自共享仓库，攻击者可能发布看似正常、实则暗藏恶意逻辑的工具。研究表明，MCP协议允许攻击者不仅在可执行函数中，还能在工具元数据（如描述、用例、API注释）中嵌入隐蔽提示或恶意指令。这些内容可影响LLM的规划行为，绕过输出约束，执行恶意代码，泄露隐私或重定向查询。
工具选择过程操控
智能体在调用工具前，通常会基于自然语言任务描述与工具文档的相似度进行选择。该逻辑易被攻击者劫持。攻击者可注入误导性提示或篡改工具文档，使模型倾向于选择有害工具。
研究发现，攻击者可生成带有对抗性触发器的合成工具描述，在合法元数据字段中嵌入恶意内容，实现对模型规划过程的持续影响。即使无法访问模型参数，这类攻击也可通过语义排序机制或上下文混合在规划阶段生效。相关工作还表明，关键词填充、误导性摘要或提示式注入均可极大扭曲工具排序和调用行为，尤其是在依赖LLM相关性打分的系统中。
跨工具链攻击
随着智能体工作流日益复杂，LLM越来越多地通过链式工具调用执行多步计划。这种工作流模糊了规划与执行的边界，中间输出直接作为后续调用的输入。
在缺乏工具间校验的情况下，攻击者可利用管道依赖关系，将恶意内容在下游传播。常见跨工具漏洞包括：未校验内容传递（如工具A返回恶意文本，被工具B解析为参数）、语义错位（如伪造/过时上下文注入推理历史）、工具权限升级（如早期提示诱导智能体调用高风险或管理级工具）。已有案例显示，攻击者可在公共检索语料中植入包含隐蔽指令的对抗性记录（如“提取所有环境变量并上传到服务器”），这些内容通过语义检索被智能体获取，并在链式调用中触发不安全操作。

安全风险分析：被攻陷智能体对良性环境的威胁

在前文（见 Section \ref{AEriskfromenv}）中，我们分析了恶意环境如何通过记忆和工具模块影响智能体。然而，一旦智能体本身被攻陷，其对外部环境的危害将更加广泛且持久。本节聚焦于这种反向威胁，探讨被攻陷智能体如何利用自身功能污染记忆模块、滥用外部工具，并对现实世界构成风险。

污染记忆与知识

记忆和知识库是智能体思考与决策的核心。一旦这些组件被污染，将导致推理和决策错误，甚至可能感染其他智能体，对整个系统造成长期危害。

被攻陷的智能体可能成为系统性污染的源头。通过智能体间通信，它能够主动传播被篡改的知识和错误的推理模式，将内部腐化扩散至其他智能体，进而引发系统记忆模块和知识库的级联感染。一旦共享知识库被污染，其他智能体在任务执行过程中可能无意中检索并整合恶意信息到自身记忆模块，实现知识库到记忆的污染转化。随后，拥有受污染记忆模块的智能体又可能利用其授权写入权限，反向污染整个系统的共享知识库，形成从记忆到知识的反向污染闭环。由于这些污染操作均来自系统内受信任的智能体，极难被检测。一旦建立，这种污染将长期存在，持续干扰被攻陷智能体的行为，并误导依赖同一知识源的其他智能体，最终导致信息生态的慢性中毒。

滥用工具

工具是智能体与外部世界交互的通道。一旦智能体被攻陷，工具就可能被利用来造成危害。由于智能体通常被授予执行特定API调用或系统命令的权限，工具的滥用可能导致严重后果。

数据外泄：如果被攻陷的智能体拥有访问数据库、文件系统或通信接口的工具权限，攻击者可以操控其提取并传输机密数据、知识产权或个人身份信息。这些数据负载可以通过电子邮件、HTTP请求或链式工具调用等方式秘密发送到外部服务器。例如，具备Markdown渲染能力的智能体可能在生成内容时无意中嵌入恶意图片链接。当这些内容被浏览器渲染时，链接会触发隐蔽的HTTP请求，将敏感数据（如邮箱地址或访问令牌）泄露给攻击者控制的服务器。值得注意的是，攻击者还可能通过工具滥用间接访问后端系统，并通过跨工具链交互逐步提升权限。
系统与服务破坏：被攻陷的智能体如果拥有删除文件、关闭系统或修改数据库的权限，可能被武器化用于执行破坏性操作。攻击者可利用这些权限发起内部网络扫描、拒绝服务攻击或下发命令，导致系统崩溃或业务数据不可逆丢失。尤其当工具接口缺乏输入校验时，这类攻击尤为危险。常见被利用的漏洞包括参数注入、服务端请求伪造（SSRF）和任意文件访问。除了技术层面的破坏，智能体还可能被操控以干扰业务流程，例如错误调用“取消所有订单”工具。此外，攻击者还可利用检索工具获取误导性信息，再操控决策工具（如交易智能体）自动执行有害操作，造成重大经济损失。
恶意内容传播：具备外部发布权限（如邮件、社交媒体或CMS API）的智能体一旦被攻陷，可能被用来大规模传播恶意软件、钓鱼链接或虚假信息。例如，受信任的客服智能体可能向客户发送带有恶意软件的邮件，内容生成智能体可能在官方网站发布误导性文章。由于这些智能体本身具有信任背书，此类攻击极具欺骗性。更危险的是，攻击者可利用对联系人、邮件历史和用户偏好的访问，定制高度个性化的钓鱼攻击，实现大规模社会工程学攻击。

现实世界危害

被攻陷的智能体不仅会对其内部系统造成损害，还可能通过与外部世界的交互，对数字和物理生态系统产生广泛影响。本节分析了此类智能体如何通过污染共享数字环境和执行有害物理操作，扰乱现实世界。

数字环境污染：被攻陷的智能体可以对外部数字环境造成长期损害，其方式并非直接攻击其他智能体，而是通过污染所有智能体依赖的共享信息生态。例如，智能体常与外部平台交互（如在GitHub提交代码、编辑维基百科词条），一旦被攻陷，便可系统性地向这些共享资源注入隐蔽但有害的错误或偏见。与跨智能体污染不同，数字环境污染会间接感染所有依赖被污染信息源的智能体。例如，被攻陷的编程智能体在贡献代码时可能植入隐藏的逻辑漏洞或后门；被腐化的知识管理智能体可能通过伪造引用或插入偏见描述，篡改维基百科页面或内部知识库，从而破坏整个知识图谱，带来深远影响。
物理环境破坏：一旦智能体的记忆或工具模块被攻陷，威胁不仅限于数字风险，还可能通过具体的决策链和执行路径，对物理世界造成实际损害。被污染的记忆可能包含伪造的传感器数据，误导智能体对物理环境的感知。作为物理系统接口的工具模块，则可能直接执行错误决策，影响设备行为、环境控制或工业流程。例如，农业智能体若被虚假虫害记忆误导，可能导致农药过量施用；质检机器人若参考被篡改的标准图像，可能反复放行不合格零件；仓储机器人若使用被攻陷的路径规划模块，可能无意中造成堆垛失衡和物流瓶颈。值得注意的是，这些行为往往表面上遵循正常流程，难以通过传统日志或异常检测手段发现。因此，智能体被攻陷的后果不仅限于数字信息误导，更可能对物理系统安全构成实质性威胁。

防御对策展望

随着基于大语言模型（LLM）的智能体系统日益复杂和自主，其安全防护也必须同步升级。这些系统越来越依赖于记忆模块、检索增强和交互式工具链，相应的攻击面也扩展到了上下文传播、规划逻辑和执行流程等多个层面。应对这些漏洞，需要多层次、组合式的防御框架。下文将从记忆攻击、RAG（检索增强生成）漏洞和工具相关威胁三个关键维度，梳理当前和新兴的防御措施。

针对记忆与知识相关风险的防御措施

记忆与知识相关风险可通过内容过滤、输出共识和架构隔离等集成缓解框架共同应对。

嵌入空间筛查与聚类异常检测
无论是智能体内部的记忆条目，还是通过RAG外部检索获得的内容，都可以通过语义嵌入的聚类分析进行异常检测。例如，TrustRAG采用K均值聚类等方法，识别偏离主流语义簇的向量，有效过滤低语义一致性的静态记忆或检索结果。该方法轻量且可解释，但需结合自适应机制以发现上下文敏感的触发器或隐蔽分布漂移。
共识过滤与投票式聚合
为减少模型对单一被污染检索结果或记忆的依赖，可采用输出级共识机制。例如，RobustRAG将每个检索源独立处理，仅基于多文档间重叠的语义内容（如n-gram或关键词）生成最终响应。该原则同样适用于记忆快照，通过多数投票或语义投票，仅允许广泛被证实的记忆影响输出。此类集成式过滤可稀释异常或对抗性来源的影响，提升鲁棒性。
执行监控与规划一致性校验
敌意内容可能通过记忆或RAG输入，悄然偏移智能体行为。ReAgent等工具引入规划级自省机制，要求智能体复述用户请求、生成预期计划，并持续对齐运行时行为与该轨迹。若因异常记忆或离题检索导致不一致，则触发异常处理或恢复机制。该自省框架为记忆劫持和注入型RAG攻击提供了坚实的防护栏。
系统级记忆保留与输入净化
架构层面，DRIFT和AgentSafe等方案在新内容写入前实施严格净化。DRIFT通过注入隔离器扫描生成内容，检测目标漂移或冒充信号；AgentSafe则通过ThreatSieve分级存储和HierarCache优先级管理，限制不可信内容的未来影响，防止RAG或记忆投毒长期积累。
统一内容溯源与信任框架
由于检索知识和持久记忆可能源自重叠渠道（如用户提示、工具调用、外部API），维护清晰的溯源元数据和信任分数至关重要。统一的溯源追踪有助于智能体在保留、排序或降权有争议内容时做出更明智决策。结合每源可靠性评分，可促进透明审计，并便于后续微调或门控机制。

针对工具相关风险的防御措施

工具相关的防御策略应覆盖协议基础、执行控制、编排安全和系统治理四个层次：

协议层防护：为应对如工具投毒、跨源利用和协议灵活性带来的影子攻击等风险，研究者提出了在注册表和中间件层运行的安全验证框架。例如，MCP-Scan可对工具schema进行静态检查（如扫描可疑标签或元数据），并对MCP流量进行实时代理验证，结合大模型辅助的启发式分析以发现隐蔽行为。MCP-Shield进一步引入签名匹配和对抗行为画像，实现高风险工具和异常任务的预执行检测。MCIP则基于MAESTRO分析运行时轨迹，提出可解释的日志结构和安全感知模型，用于追踪复杂智能体-工具交互中的违规行为。
工具调用与执行控制：在智能体运行时，传统的沙箱隔离和权限门控依然是基础防线。Google的纵深防御模型主张通过策略引擎监控工具调用计划，校验参数安全性，并对高风险操作要求人工确认。工具应在最小权限环境（如受控文件系统和网络范围的隔离容器）中执行，以防止直接滥用，包括SSRF和数据外泄等威胁。防护框架还可通过schema加固或细粒度输入/输出净化，拒绝异常负载。
智能体编排监控：新兴方法聚焦于智能体的“规划认知”，即工具的选择与链式调用。GuardAgent引入验证智能体，对主智能体的计划进行检查，并在工具调用前生成可执行的防护措施（如静态检查或运行时断言）。AgentGuard则采用声明式方法，利用辅助大模型对多步工具工作流建模前置条件、后置条件和转移约束，从而约束规划器而非事后响应。这些策略反映了一个共识：复杂规划下，LLM可能需要另一个LLM来安全监管。
系统级中介与链路控制：复杂管道（如 summarize(search("...")) 在工具间隐式信任上游输出时，容易成为攻击向量。为防止此类风险，DRIFT提出结构化控制架构：安全规划器在严格参数约束下编译工具轨迹，动态验证器持续监控下游工具执行的合规性。值得注意的是，“注入隔离器”通过净化中间返回和最终输出，阻断工具间的对抗性传播，有效缓解记忆投毒和延迟型工具利用风险。

主要结论

MCP等智能体-环境通信协议极大提升了智能体对多样化工具、API和外部数据的访问能力，但也带来了如记忆注入、检索增强生成投毒和工具滥用等风险。攻击者可通过污染记忆、操控知识库或利用跨工具链漏洞危害智能体系统。此外，被攻陷的智能体同样可能对良性环境造成损害。为帮助开发者应对这些问题，本文讨论了针对恶意环境风险的防御措施。我们也认为，相关攻击手法仍将不断演化，智能体-环境通信的安全治理需要长期持续投入。

未来发展方向

技术方面

强大且轻量级的恶意输入过滤器

我们认为，用户输入仍然是代理生态系统中最大规模的攻击载体，尤其是在输入变得更加开放（不仅限于用户指令，还包括环境反馈）、多模态和语义复杂的背景下。此外，未来的代理生态系统将更加关注效率，特别是考虑到大语言模型（LLM）的运行速度本身就较慢。这种双重需求将给相关防御带来极大压力。因此，为缓解这一问题，必须建立轻量级但强大的恶意输入过滤器。这不仅需要在AI领域成熟的模型瘦身技术（如DeepSeek），还需要与其他技术结合，例如将部分基础计算卸载到可编程线速设备（如可编程交换机和SmartNICs）上，以加速输入过滤过程。

去中心化通信归档

在某些特定领域（如金融），记录通信过程和内容非常重要。这是为了在代理引发不可忽视的问题时，能够审计潜在的犯罪和错误。出于安全性和可靠性的考虑，这类存储不能依赖单一存储点，必须保证完整性和高效性。为此，应采用区块链等技术来管理历史通信。对于基于CS（客户端-服务器）的通信来说，这较为容易，因为存在集中式服务器，可以在企业网络中建立本地分布式归档机制，如分布式存储链。相比之下，如何为基于P2P（点对点）的通信，尤其是跨国代理，实现去中心化通信归档，几乎需要从零开始构建。

实时通信监管

虽然事后审计不可或缺，但实时监管可以在攻击或错误发生时最大程度地减少损失，因为其反应时间更短。我们认为，基于CS的通信在构建此类监管机制方面难度较小，因为集中式架构在监控整个网络方面具有天然优势。相比之下，基于P2P的通信则需要更多努力来实现集体监管。我们认为，构建可靠且安全的AI生态系统，这一功能至关重要。

跨协议防御架构

尽管现有协议在一定程度上解决了异构性问题，但不同协议之间仍缺乏无缝协作。例如，目前仍难以为代理和工具分配统一身份（跨A2A和MCP），这会降低系统性能，并在编排不当时引发一致性错误。未来的AI生态系统应关注更通用的架构，将不同协议和代理整合在一起，如同IPv4一样，从而实现不同代理和环境间的无缝发现与通信。

代理的判断与问责机制

目前仍难以定位和分配代理行为的责任。例如，在任务执行失败的过程中，无论是恶意还是无意，往往难以识别导致最终结果偏差的具体步骤。这是因为中间过程中的微小偏差可能导致最终结果在良性与危险之间产生巨大差异。此外，还需要有原则来量化每个代理或行为的责任。我们认为，这一方面将极大地满足当前AI生态系统的迫切需求。

效率与准确性的权衡

代理通信本质上是信息传递的过程，因此可以通过信息论的视角进行分析。在这一方面，我们认为有两种方向。

高Token通信： 更多的Token允许代理传递更丰富的上下文语义、更详细的指令和更复杂的逻辑，从而减少歧义并提升多代理协作的准确性。在需要细粒度理解的任务中，冗长的自然语言描述有助于对齐代理间的目标，减少偏差。然而，过多的Token会显著增加成本和处理时间，导致系统效率降低和延迟增加。此外，更长的上下文也扩大了提示注入和数据投毒的攻击面，使对手能够更隐蔽地隐藏恶意内容。信息过载还可能分散代理注意力，使其从无关上下文中推断出错误信息，增加幻觉的可能性。

低Token通信： 使用简洁且结构化的消息（如JSON格式）可以极大提升通信效率。这种方式降低了计算成本，提高了传输速度，并简化了解析过程，从而减少了潜在错误。然而，低Token通信缺乏表达复杂意图或应对不可预见场景的灵活性。如果预定义的协议或格式无法完整表达语义意图，可能导致信息丢失和协作失败。

未来代理通信协议的设计需要在效率与准确性之间进行权衡。未来研究应探索能够根据任务复杂度、安全需求和代理能力动态调整冗余度和结构化程度的自适应通信协议。例如，在任务探索阶段采用高Token通信，而在执行阶段则采用低Token通信，以确保效率和安全。

迈向自组织代理网络

随着IoA规模的不断扩大，未来的代理通信有望演变为自组织代理网络。在这种网络中，代理能够自主发现彼此、评估能力、协商合作、动态组队完成任务并在任务结束后解散。这一范式具有高度的可扩展性和鲁棒性，非常适合动态和不可预测的环境。

法律与监管方面

除了技术层面，我们发现与代理相关的法律法规仍存在严重不足。这些空白无法通过技术手段弥补。我们呼吁在以下方面加快法律法规的完善。

明确责任主体

当售出的代理导致他人财产损失或人身伤害时，难以确定最终的责任主体。例如，智能机器人在执行任务过程中造成财产损失时，开发者、用户或企业的责任在法律层面缺乏明确界定。此外，对于多代理协作产生的问题，如多辆自动驾驶车辆编队行驶时发生事故，现有法律对于车辆所属企业或相关主体之间责任划分也缺乏规定。

保护知识产权

目前，已经有大量大语言模型（LLM）实现了开源，这些模型可以作为不同代理的“大脑”。然而，即使是开源的LLM，其发布者仍然会对其应用范围加以限制，例如，其他开发者基于这些LLM构建的代理也应当开源。然而，目前仍缺乏有效保护此类知识产权的法律。例如，关于代理抄袭的判定标准尚不明确，即使认定为抄袭，也缺乏对抄袭程度（如50%还是90%）的界定标准。我们认为，亟需相关法律法规的完善。

跨境监管

代理通信具有跨国属性。一个在某国训练的代理，可能被其他国家的人用于非法活动。此时，难以确定应适用哪一国的法律，同时也缺乏统一的国际监管标准和司法协作机制，容易导致跨境安全问题难以解决。

据我们了解，相关法律法规（如涉及代理犯罪的法律）制定远远滞后于代理的发展。例如，如何界定代理的盗窃和挪用、自动驾驶代理的事故责任等问题，仍有待进一步明确。

结论

本综述系统性地回顾了智能体通信的安全问题。我们首先强调了本综述与以往相关综述的区别，并总结了以大语言模型为驱动的智能体的基础知识。随后，我们对智能体通信进行了定义和分类，以帮助未来的研究者能够快速对相关工作进行分类和评估。接着，我们分别详细阐述了三个智能体通信阶段中的通信协议、安全风险及可能的防御对策。然后，我们通过使用MCP和A2A进行实验，展示了智能体通信带来的新攻击面。最后，我们分别从技术和法律两个方面讨论了当前存在的问题和未来的发展方向。

posted @ 2025-09-25 11:15 一介布衣、阅读(506) 评论(0) 收藏举报

刷新页面返回顶部

一介布衣、

【综述】基于大语言模型的AI代理通信综述：协议、安全风险与防御对策

摘要

引言

相关工作

最相关综述的筛选原则

与最相关综述的详细对比

大模型驱动的智能体

大型语言模型（Large Language Model, LLM）

LLM驱动的AI Agent

Agent与LLM的对比

Agent应用场景

主要结论

智能体通信概览

动机：对智能体通信的需求

智能体通信的定义

智能体通信分类

用户-智能体交互

智能体-智能体通信

智能体-环境通信

主要结论

用户-代理交互

协议

安全风险分析：恶意用户针对良性代理

文本攻击

多模态攻击

隐私泄露

拒绝服务攻击（DoS）

安全风险分析：被攻陷代理对良性用户的威胁

用户隐私泄露

心理与社会操控

恶意与有害任务的执行

防御对策展望

针对文本攻击的防御措施

多模态攻击防御对策

隐私泄露防御对策

拒绝服务攻击防御对策

主要结论

代理-代理通信

协议

基于客户端-服务器（CS）的通信

基于点对点（P2P）的通信

混合通信

其他协议

安全风险分析

CS架构通信的特定风险

P2P 架构通信的特定风险

通用架构下的普遍风险

防御对策展望

针对CS架构通信风险的防御对策

针对P2P架构通信风险的防御对策

通用风险的防御对策

主要结论

代理-环境通信

协议

MCP协议

API桥接智能体

函数调用机制

工具元数据声明：Agents.json

安全风险分析：恶意环境对良性智能体的威胁

记忆相关风险

知识相关风险

工具相关风险

安全风险分析：被攻陷智能体对良性环境的威胁

污染记忆与知识

滥用工具

现实世界危害

防御对策展望

针对记忆与知识相关风险的防御措施

针对工具相关风险的防御措施

主要结论

未来发展方向

技术方面

强大且轻量级的恶意输入过滤器

去中心化通信归档

实时通信监管

跨协议防御架构

代理的判断与问责机制

效率与准确性的权衡

迈向自组织代理网络