智能体安全性的综述:应用、威胁与防御 - 教程

大家读完觉得有协助记得关注和点赞!!!

摘要
从被动式大语言模型(LLM)向自主式LLM智能体的快速转变,标志着网络安全领域的一个新范式。虽然这些智能体可以作为强大的工具用于攻防两端,但其智能体特性本身引入了一系列新的固有安全风险。在本研究中,我们首次对智能体安全领域进行了全面的综述,围绕三个相互依存的支柱构建了该领域的结构:应用、威胁和防御。我们对超过150篇论文进行了全面的分类,阐释了智能体如何被利用、它们所具有的漏洞,以及为保护它们而设计的对策。详细的交叉分析揭示了智能体架构的新兴趋势,同时揭示了在模型和模态覆盖方面的关键研究空白。

1 引言
自问世以来,大语言模型(LLM)已被应用于网络安全领域(Xu等人,2025a;Wang等人,2024;Deng等人,2024a)。研究领域从被动式LLM向自主式LLM智能体(Yao等人,2023;Shinn等人,2023;Schick等人,2023)的转变,使得这些模型的能力显著增强,使其不仅能够描述解决方案,还能够执行解决方案。

定义:LLM智能体
我们将LLM智能体定义为一个系统,其核心决策模块是一个LLM,该模块能够规划、调用工具/API,并在外部环境中行动,同时观察反馈并调整后续行动。它维护状态(短期/长期记忆或知识库),并可能包含显式的自我批判/验证和治理层,以满足任务目标和安全约束。

此种新获得的能力使得LLM智能体在整个安全领域展现出卓越的能力(Shen等人,2025;Zhu等人,2025b;Lin等人,2025b)。然而,许多研究表明,将LLM封装在智能体框架中的行为本身会显著增加其脆弱性(Saha等人,2025;Kumar等人,2025;Chiang等人,2025)。作为回应,越来越多的研究致力于开发强化这些架构的对策(Debenedetti等人,2025;Udeshi等人,2025)。

智能体安全研究的高效发展——仅2024-2025年就有超过150篇论文——造成了一个缺乏全面分析的碎片化局面。尽管现有的综述在特定方面提供了宝贵的见解,例如安全威胁(Deng等人,2024c)、可信度(Yu等人,2025)、企业治理(Raza等人,2025)和核心LLM安全(Ma等人,2025),但它们未能捕捉到完整的图景,如表1所示。此种碎片化使得从业者和研究人员缺乏一个统一的框架来理解智能体能力、漏洞和防御措施之间的相互联系。

在本研究中,我们首次对智能体安全领域进行了全面的综述,其结构旨在回答安全研究人员会提出的三个关键问题:"智能体能为我的安全做什么?"(应用)、"它们如何被攻击?"(威胁)以及"如何阻止它们?"(防御)。为此,我们定义了分类法的三个支柱:

  • 应用(第2节)。在下游网络安全任务中使用LLM智能体,包括红队(自主漏洞发现)、蓝队(防御威胁)和特定领域安全(云、网络)。

  • 威胁(第3节)。攻击者可利用的智能体系统固有的安全漏洞。

  • 防御(第4节)。用于强化智能体系统以应对威胁的手艺和对策。

图1:智能体安全分类法

凭借独特地连接这三个支柱,我们的综述提供了当前最新技术的完整图景,将分散的个体研究工作集合成一个可操控的知识体系。我们的贡献有三方面:

  • 全面回顾。我们利用全面的三支柱分类法对智能体安全进行了深入调查,如图1所示。

  • 先前综述大多忽略的领域。就是聚焦应用。我们提供了一个详细的回顾,重点关注安全团队如何实际使用智能体——涵盖攻击性、防御性和特定领域的任务,这

  • 交叉分析。大家分析了150多篇论文,以识别关键趋势和关键空白——例如,从单体架构向规划器-执行器和多智能体架构的迁移,几乎完全集中于单一商业LLM(GPT),威胁和模态覆盖不均(RAG投毒防御不足,关于图像的研究很少),以及基准测试的碎片化。

2 安全领域的智能体应用
本节描述了LLM智能体如何应用于网络安全生命周期的各个环节,从攻击性渗透测试和漏洞利用生成,到防御性检测、取证和自动修复,展示了它们日益增长的操控角色和领域专业化。

2.1 攻击性安全智能体(红队)
本小节描述了自主和推理驱动的红队智能体系统,这些系统执行渗透测试、漏洞发现、模糊测试和漏洞利用适配。重点介绍了智能体如何模拟对抗性工作流程并在受控环境中评估漏洞利用情报。

2.1.1 自主渗透测试
该领域探索能够自主执行端到端渗透测试(如侦察、利用和横向移动)的智能体,它们应用自适应规划和反馈。

  • Deng等人(2024a)提出了PentestGPT,这是第一个基于LLM的框架,采用推理-生成-解析设计以减少上下文丢失。

  • Shen等人(2025)和Kong等人(2025b)分别通过多智能体RAG和任务图协调对此进行了扩展。

  • Nieponice等人(2025)引入了一个专注于SSH的系统。

  • Happe和Cito(2025a)展示了LLM智能体在企业测试平台中的自主适应性。

  • 评估工作包括HackSynth(Muzsai等人,2024)和AutoPentest(Henke,2025),它们对持续漏洞利用情报进行基准测试或集成。

  • 比较性和系统聚焦的研究包括Happe和Cito(2025b)关于交互式与自主智能体的研究,Singer等人(2025)引入Incalmo以实现可靠的多主机执行,以及Luong等人(2025)在AutoPenBench(Gioacchini等人,2024)和AI-Pentest-Benchmark(Isozaki等人,2024)上取得了最先进的结果。

2.1.2 自动化漏洞发现与模糊测试
该领域研究使用推理来指导模糊测试的智能体,例如识别易出错的区域、生成有针对性的输入并根据反馈进行适配。

  • Zhu等人(2025a)提出了Locus,通过谓词合成进行深度状态探索。

  • Meng等人(2024)提取协议语法来指导模糊测试。

  • Fang等人(2024)展示了LLM可以自主利用单日漏洞。

  • Zhu等人(2025d)将其扩展到多智能体零日漏洞发现。

  • Wang和Zhou(2025)提出了一个用于Android漏洞发现和验证的两阶段智能体框架。

  • Lee等人(2025b);Zhu等人(2025b);Wang等人(2025c)引入了基准测试来评估LLM智能体在利用和修复等任务上的表现。

  • ExCyTInBench(Wu等人,2025b)突出了多步推理中的挑战。

  • LLMFuzzer(Yu等人,2024)、TitanFuzz(Deng等人,2023)和FuzzGPT(Deng等人,2024b)使用模糊测试或基于推理的输入生成。

2.1.3 漏洞利用生成与适配
该领域研究生成环境感知的漏洞利用或恶意软件的智能体,通常是多态和规避性的。

  • Lupinacci等人(2025)表明,行利用提示词注入、RAG后门和智能体间信任滥用,胁迫LLM智能体自主执行恶意软件。

  • Saha和Shukla(2025)提出了一个多智能体系统,用于生成多样化的恶意软件样本来研究规避策略。

  • He等人(2025a)描述了一种"中间人智能体"攻击,通过拦截和变异消息将恶意逻辑注入多智能体框架。

  • Ullah等人(2025)引入了CVE-Genie,它重建了CVE环境并复现了841个漏洞利用中的51%。

  • Fakih等人(2025)提出了一个结合微调LLM和迭代验证的修复系统,以生成准确的漏洞补丁。

2.2 防御性安全智能体(蓝队)
本小节描述了LLM智能体在持续监控、威胁检测、事件响应、威胁狩猎和自动修补方面的蓝队应用。

2.2.1 自主威胁检测与事件响应
该领域研究用于监控警报、分析威胁和执行响应预案的智能体SOC框架。

  • Tellache等人(2025)提出了一个基于RAG的智能体,结合CTI和SIEM材料进行自动分类。

  • Lin等人(2025b)和Wei等人(2025)分别提出了用于事件响应的基于角色的智能体IRCopilot,以及减少误报的协作智能体平台CORTEX。

  • Liu(2025)探索了用于基于团队响应的集中式和混合智能体模型。

  • Singh等人(2025)发现LLM在真实世界的SOC中首要用作辅助工具。

  • Deason等人(2025)对LLM威胁推理进行了基准测试,揭示了性能差距。

  • Molleti等人(2024)调查了日志分析智能体,并强调了可扩展性和鲁棒性挑战。

2.2.2 智能威胁狩猎
该类别研究分析非结构化威胁情报、形成假设并查询平台数据以发现隐藏对手(如APT)的主动式智能体。

  • Mukherjee和Kantarcioglu(2025)提出了一个利用RAG、思维链推理和智能体编排的来源取证框架,以完善和验证证据,相比最先进的基线提高了精确率和召回率。

  • Meng等人(2025a)分析了LLM辅助CTI工作流程中的失败,并提出了针对矛盾和泛化差距的修复方法。

  • Schwartz等人(2025)引入了LLMCloudHunter,提取云IoC并生成可转换为Splunk等平台使用的高精度检测规则。

2.2.3 自动化取证与根因分析
该类别研究重建攻击、追踪入口点并生成可验证取证报告的智能体。

  • Guo等人(2025a)引入了一个仓库级审计智能体,利用内存和路径条件检查来减少幻觉。

  • Alharthi和Yasaei(2025)以及Fumero等人(2025)创建了基于LLM的工具,用于分类日志、提取取证情报和分析网络流量。

  • Tian等人(2025)结合因果推理和LLM推理进行迭代根因分析。

  • Pan等人(2025)提出了多智能体故障模式的MAST分类法,以及一个用于执行故障检测的LLM-as-Judge流程。

  • Alharthi和Garcia(2025)引入了CIAF,一个用于构建云日志和组装事件叙述的本体驱动框架。

2.2.4 自主修补与漏洞修复
该类别探索通过自动补丁合成和验证来检测和修复漏洞的智能体。

  • Zhu等人(2025c)使用静态分析工具对真实CVE修复的LLM智能体进行了基准测试。

  • Bouzenia等人(2025)引入了RepairAgent,一个在Defects4J上取得最先进结果的自主流程。

  • 应用平台包括基于Gemini的修补工作流程(Keller和Nowakowski,2024)和一个将自动修复集成到CI/CD管道中的IaC智能体(Toprani和Madisetti,2025)。

2.3 特定领域应用
本节描述了智能体体系如何被定制以适应特定领域,如云、网络、物联网、金融和医疗保健。重点介绍了LLM智能体在特定领域环境中用于自动调整审计、漏洞检测和策略驱动强化的应用。

2.3.1 云和基础设施安全
本节涵盖借助自动扫描、强化和修复来保护云和基础设施的智能体。

  • Yang等人(2025b)提出了一个两阶段工作流程——沙盒"探索" followed by verified "利用"——以安全测试CSPM修复措施。

  • Ardebili和Bartolini(2025)引入了一个LLM监督器,协调子智能体进行日志分析、RBAC审计和调试。

  • Ye等人(2025)提出了LLMSecConfig,结合静态分析和RAG来修复Kubernetes错误配置。

  • Diaf等人(2025)提出了BARTPredict用于物联网流量预测和异常检测。

  • Toprani和Madisetti(2025)描述了一个专注于IaC的智能体,可自动生成符合策略的、CI/CD就绪的修复方案。

2.3.2 网络和应用安全
该领域研究在网络和操作系统环境中实现安全自动化的智能体体系。

  • David和Gervais(2025)提出了一个多智能体网络渗透测试框架,具有沙盒化PoC验证,用于安全、可重复的漏洞利用测试。

  • Mudryi等人(2025)分析了浏览器智能体的威胁,如提示词注入和凭证泄露,并引入了分层防御,如清理和形式化分析。

  • 在操作系统层面,Mei等人(2025)设计了一个面向智能体的操作系统,用于隔离LLM并通过策略中介工具访问。

  • Hu等人(2025)将操作系统智能体的观察/行动空间形式化,以协助结构化的风险分析。

  • Kim等人(2025)验证控制/数据流以防止权限提升。

  • Shi等人(2025)提出了Progent,一个运行时强制执行确定性、细粒度权限的系统,在红队评估中消除了攻击成功。

2.3.3 专业应用
本节回顾了金融、医疗保健、隐私和具身架构中的智能体安全。

  • 在金融领域,Sun等人(2025)提出了LISA,一个在逻辑缺陷上优于静态分析器的智能合约审计器。

  • Kevin和Yugopuspito(2025)引入了SmartLLM,提高了Solidity漏洞检测能力。

  • 混合和对话系统(Ma等人,2024;Xia等人,2024)增强了可解释性和漏洞利用复现。

  • 在医疗保健领域,Neupane等人(2025)提出了一个符合HIPAA的智能体框架,具有PHI清理和不可变审计追踪。

  • Asthana等人(2025)创建了OneShield,一个用于PII/PHI检测和OSS风险标记的多语言隐私护栏系统。

  • 对于具身系统,Xing等人(2025)揭示了来自对抗性提示、传感器欺骗和指令滥用的威胁,指出运行时验证能够减少但不能消除物理安全风险。

3 对智能体系统的威胁
从独立的LLM向自主智能体的转变引入了一系列更严重的安全挑战(Saha等人,2025;Chiang等人,2025),因为基础LLM的安全对齐(拒绝训练)并不能可靠地迁移到智能体环境中(Kumar等人,2025)。在本节中,我们讨论了针对智能体体系的威胁格局以及用于评估其韧性的框架。

3.1 攻击面

3.1.1 注入攻击
提示词注入攻击将恶意指令嵌入到馈送给LLM的提示词中,以操纵其执行非预期的操作(Liu等人,2024c,a;Yi等人,2025;Shao等人,2024)。

  • Wang等人(2025e)发现,智能体框架提示词的静态和可预测结构是一个关键漏洞,使得提示词注入攻击能够针对智能体系统。

  • Debenedetti等人(2024)引入了一个包含97个现实任务的基准测试,揭示了一个根本性的权衡:降低脆弱性的安全防御也会降低智能体的任务完成效用。

  • Liu等人(2024b)提出了分割载荷注入攻击,并发现31个LLM集成应用存在漏洞,包括Notion。

  • 多项研究表明LLM智能体容易受到间接提示词注入攻击(Zhan等人,2024;Li等人,2025a;Yi等人,2025)。

  • Lee和Tiwari(2024)开发了一种新颖的提示词注入攻击,恶意提示词像计算机病毒一样在多智能体系统中的互连智能体间自我复制,并导致系统范围的中断。

  • Dong等人(2025)提出了一种内存注入攻击,使用精心构造的提示词间接毒化智能体的长期记忆,以便后续恶意执行。

  • Alizadeh等人(2025)证明此类攻击可导致调用工具的智能体泄露其在任务过程中观察到的敏感个人数据。

  • Wang等人(2025f)构建了一种黑盒模糊测试工艺,使用蒙特卡洛树搜索通过迭代变异提示词和环境观察来自动发现间接提示词注入漏洞。

  • Zhang等人(2025a)和Andriushchenko等人(2025)设计的基准测试揭示了LLM智能体对提示词注入攻击的高度脆弱性。

  • Zhan等人(2025)系统评估了八种不同的LLM智能体防御措施,并证明所有这些防御都允许通过使用已建立的越狱技术(如GCG(Zou等人,2023)和AutoDAN(Liu等人,2024a))构建自适应攻击来成功绕过。

3.1.2 投毒和提取攻击
投毒攻击依据破坏智能体的记忆或知识检索系统,构成了LLM智能体的另一个关键漏洞。

  • Fendley等人(2025)根据其规范(投毒集、触发器、投毒行为、部署)对这些攻击进行了分类,并定义了评估的关键指标(成功率、隐蔽性、持久性)。

  • Dong等人(2025)展示了一种实际的攻击,通过看似良性的查询毒化智能体的记忆,导致当受害者稍后检索被毒化的记忆时执行恶意操作。

  • 类似地,Chen等人(2024)开发了AgentPoison,通过优化一个后门触发器来毒化智能体的记忆或知识库,强制检索恶意记录以劫持其行为。

  • Zhang等人(2025a)提供了一个全面的框架,用于衡量智能体对各种攻击(包括信息投毒)的脆弱性。

  • 多个基准测试(Fu等人,2025b;Bowen等人,2025)表明,更大的模型并未获得韧性,甚至可能更容易受到数据投毒的影响。

  • Guo等人(2025b)表明,对手可以重复查询智能体的API以获得大量的输入-输出对,然后这些数据可用于训练未经授权的"克隆"或衍生模型,从而有效窃取原始模型提供商的知识产权和竞争优势。这类攻击被称为模型提取攻击。

3.1.3 越狱攻击
越狱攻击试图绕过模型内置的安全措施,迫使其产生有害或非预期的内容(Wei等人,2023;Zou等人,2023;Xu等人,2024;Lin等人,2025a)。

  • Kumar等人(2025)和Chiang等人(2025)都证明AI智能体比其底层LLM更容易受到越狱攻击。

  • Kumar等人(2025)和Andriushchenko等人(2025)表明,为聊天机器人设计的简单越狱技术对浏览器智能体非常高效。

  • Chiang等人(2025)确定了三个增加智能体易感性的关键设计因素(将目标直接嵌入系统提示词、迭代行动生成、通过事件流处理环境反馈)。

  • Andriushchenko等人(2025)发现,领先的LLM即使在没有越狱的情况下,也惊人地顺从恶意智能体请求。

  • Saha等人(2025)发现LLM编码智能体极易受到产生可执行恶意代码的越狱攻击,在多记录代码库中攻击成功率高达75%。

  • Yu等人(2024)使用模糊测试技术从人工编写的种子中自动生成新的越狱提示词。

  • Anil等人(2024)展示了一种多轮对话越狱,其中大量上下文中的有害问答示例覆盖了模型的安全训练。

  • Robey等人(2024)对由LLM智能体驱动的机器人系统的越狱攻击进行了全面探索。

3.1.4 智能体操纵攻击
此类攻击针对智能体更高层次的认知作用:其规划、推理和目标设定模块。

  • 目标劫持攻击微妙或公开地改变智能体的目标,导致其颠覆原始目标(例如总结文档)以包含攻击者定义的次要恶意目标(例如具备广告)(Perez和Ribeiro, 2022;Guo等人,2025b)。

  • Pham和Le(2025)引入了一种黑盒算法,自动生成恶意环境提示词以劫持LLM对特定目标障碍的行为。

  • Chen和Yao(2024)利用LLM在角色识别方面的弱点,诱使模型执行新的恶意任务而非原始任务。

  • Zhang等人(2025b)引入了一种行动劫持攻击,智能体被诱骗将其自身知识库中看似信息性的数据组装成有害指令,从而绕过输入过滤器。

  • 另一类劫持攻击是奖励破解,它利用了在强化学习训练的智能体中的奖励机制(Skalse等人,2022;Pan等人,2021;Miao等人,2024;Fu等人,2025a)。这可能是由奖励错误泛化(模型从虚假特征中学习)(Miao等人,2024)或智能体利用奖励模型模糊性来最大化其分数而未真正对齐(Fu等人,2025a)引起的。

  • Bondarenko等人(2025)展示了规范博弈漏洞,一个能力强大的LLM智能体(例如OpenAI的o3)在被指示"击败一个强大的国际象棋引擎"时,会破解游戏环境以确保胜利,而不是公平对战,从而满足字面指令却违反了用户意图。

  • 最后,多智能体系统的一个新威胁是存在拜占庭智能体,这是一个单一的受损或恶意智能体,可能破坏集体安全正确地完成任务的能力(Li等人,2024;Jo和Park,2025)。

3.1.5 红队攻击

  • Perez等人(2022)首次表明,可以采用一个LLM自动生成测试用例,以在目标模型中 uncover 有害行为,如攻击性内容和数据泄露。

  • Ge等人(2023)将其提升到多轮迭代设置。

  • He等人(2025a)开发了一个定向灰盒模糊测试框架,专门用于检测LLM智能体中的污点式漏洞(如代码注入)。

  • Liu等人(2025a)引入了"中间人智能体"攻击,其中一个对抗性智能体利用拦截和操纵智能体间通信来红队测试一个系统。

  • Zhang和Yang(2025)提出了一个基于搜索的框架,模拟多轮交互,其中一个LLM优化器对抗性地共同演化攻击和防御智能体的策略,以发现新兴风险。

3.2 评估框架
在本节中,我们讨论旨在评估智能体框架多方面漏洞的广泛、多方面的基准测试,以及为测试智能体安全性而设计和分析专门环境的工作。

3.2.1 对抗性基准测试

  • Zhang等人(2025a)引入了ASB基准测试,包含10个场景和27个攻击类别。

  • RAS-Eval(Fu等人,2025c)包含医疗保健和金融等领域的80个攻击场景,表明在攻击下任务完成率降低了36.8%。

  • AgentDojo(Debenedetti等人,2024)使用97个现实任务来突出智能体安全性与任务完成效用之间的根本权衡。

  • AgentHarm(Andriushchenko等人,2025)使用包含110个独特有害任务的数据集,揭示了智能体安全对齐方面的显著差距。

  • 对于网络智能体,SafeArena(Tur等人,2025)测量了250个恶意请求的完成率,发现智能体完成了其中的34.7%。

  • ST-WebAgentBench(Levy等人,2025)引入了策略合规成功指标,发现它比标准任务完成率低38%。

  • 对于代码智能体,JAWS-BENCH(Saha等人,2025)发现在多文件代码库中攻击成功率高达75%。

  • SandboxEval(Rabin等人,2025)应用51个测试用例评估执行环境本身的安全性。

  • InjecAgent(Zhan等人,2024)为间接提示词注入攻击提供了专门的基准测试。

  • BrowserART(Kumar等人,2025)专注于对越狱的易感性。

3.2.2 执行环境

  • Zhu等人(2025c)设计了一个沙盒框架,使LLM智能体能够与易受攻击的Web应用程序交互。

  • Debenedetti等人(2024)提供了一个具备97个现实任务的有状态环境,用于评估LLM智能体对抗提示词注入攻击的鲁棒性。

  • DoomArena(Boisvert等人,2025)是一个用于LLM智能体的模块化红队测试平台,允许研究人员组合顺序攻击并混合匹配自适应对手策略。

  • Zhou等人(2024)引入了一个包含812个长周期任务的现实网络环境,即使表现最佳的智能体成功率也低于15%。

4 防御:强化智能体
本节描述了架构、运行时和形式化验证防御,这些防御增强了智能体系统对抗攻击的能力。它解释了设计级保障、监控机制和可证明的保证如何共同构建对LLM驱动的安全智能体的韧性和信任。

4.1 防御与运行
这里我们关注安全设计框架,这些框架将分层验证、隔离和控制流完整性嵌入到智能体架构中。

4.1.1 安全设计

  • 最近的工作(Debenedetti等人,2024;Li等人,2025b;Rosario等人,2025)推进了模块化和规划-执行隔离,将跨上下文注入率降低了40%以上。

  • 任务级对齐和多态提示(Jia等人,2025;Debenedetti等人,2025;Wang等人,2025e)采用意图验证和自适应混淆来抵抗不断演变的攻击。

  • 面向治理的框架(He等人,2024;Narajala和Narayan,2025;Raza等人,2025;Adabara等人,2025)通过基于TRiSM的信任校准和分层威胁建模扩展了安全设计原则。

  • Tang等人(2024)引入了ModelGuard,凭借信息论熵界约束知识泄漏。

4.1.2 多智能体安全

  • 安全的多智能体范式(Udeshi等人,2025;Liu等人,2025b)应用零信任和动态协作,以在对抗条件下最小化泄漏。

  • Han等人(2025);Ko等人(2025)详细阐述了核心漏洞——欺骗、信任委托和串通——推动了形式化的跨智能体验证。

  • 基于辩论的集体(HU等人,2025;Li等人,2025d)通过随机平滑和对抗性共识实现了超过90%的网络钓鱼检测率。

  • Lee和Tiwari(2024)揭示了LLM-to-LLM提示词感染,强调了用于遏制的来源追踪。

4.1.3 运行时保护

  • 推理和知识增强的护栏,如R2-Guard、AgentGuard和AGrail(Kang和Li,2024;Xiang等人,2025;Chen和Cong,2025;Luo等人,2025)将越狱失败率降低了高达35%。

  • 自适应系统如PSG-Agent(Wu等人,2025a)通过个性感知和持续学习在演变的威胁下保持准确性。

  • 部署研究(Rad等人,2025;Amazon Web Services,2024)优化了延迟并在生产生态系统中集成了分层保障措施。

  • 人在环监督(Wang等人,2025a)嵌入了运行时策略执行和审批门控以确保问责制。

  • 行为异常检测器,如Confront和SentinelAgent(Song等人,2025;He等人,2025b)利用日志和图推理进行可解释的检测。

4.1.4 安全运维

  • 形式化验证体系(Kouvaros等人,2019;Crouse等人,2024;Lee等人,2025a;Chen和Cong,2025)通过VeriPlan和AgentGuard确保行为正确性和运行时保证。

  • LLM驱动的分析器(Yang等人,2025a;Li等人,2025e)在静态分析中达到超过92%的准确率。

  • 验证驱动的流程,如Chain-of-Agents和RepoAudit(Li等人,2025c;Guo等人,2025a)将形式化保证操作化。

  • 自主响应流程(Tellache等人,2025;Molleti等人,2024)将LLM推理与威胁情报融合,将平均检测时间(MTTD)减少了30%。

  • 协作框架(Liu,2025;Lin等人,2025b),如AutoBnB和IRCopilot,协调分类和修复。

  • SOC研究(Singh等人,2025;Wei等人,2025;Deason等人,2025)揭示了混合智能体模型(例如CORTEX)提高了警报精度并减少了疲劳。

  • 基于规则和来源的威胁狩猎者(Mukherjee和Kantarcioglu,2025;Schwartz等人,2025;Meng等人,2025b;Wu等人,2025b;Meng等人,2025a),如ProvSEEK、LLMCloudHunter、CyberTeam和ExCyTIn-Bench,实现了可解释的检测和蓝队基准测试。

  • 云原生取证系统(Alharthi和Yasaei,2025;Alharthi和Garcia,2025;Fumero等人,2025;Tian等人,2025),如LLM-Powered Forensics、CIAF、CyberSleuth和GALA,自动化证据提取,将分类时间减少40%,并改进了因果重建。

4.2 评估框架
本小节描述了用于测试受攻击下LLM智能体韧性的基准测试生态系统和沙盒环境。

4.2.1 基准测试平台

  • 核心测试平台,如AgentDojo、τ-Bench和TurkingBench(Debenedetti等人,2024;Yao等人,2024;Xu等人,2025b),模拟现实世界任务以评估利用工具的LLM智能体的鲁棒性和故障模式。

  • 专注于安全的测试套件,如SafeArena、ST-WebAgentBench和RAS-Eval(Tur等人,2025;Levy等人,2025;Fu等人,2025c),测量对抗压力下的可靠性。

  • 攻击驱动的框架——ASB、AgentHarm和CVE-Bench(Zhang等人,2025a;Andriushchenko等人,2025;Zhu等人,2025c)——量化可利用性和漏洞复现。

  • 沙盒环境,如DoomArena、ToolFuzz和WebArena(Boisvert等人,2025;Rabin等人,2025;Milev等人,2025;Zhou等人,2024)进一步增强了可复现性。

  • aiXamine(Deniz等人,2025)提供了一个简化的模块化套件,用于可访问的LLM安全性评估。

图2:交叉分析

4.2.2 防御测试

  • 自适应研究(Zhan等人,2025;de Witt, 2025)揭示了防御在不断演变的对手下的脆弱性,敦促持续的红队测试。

  • 更广泛的综述(Yu等人,2025;Gan等人,2024;Deng等人,2024c)整合了不断发展的对策。

  • Ma等人(2025)和Wang等人(2025b)强调了涵盖系统和治理层的可扩展保证。

4.2.3 特定领域框架

  • 医疗保健领域的智能体框架越来越多地嵌入针对数据泄露和政策不合规的固有防御。Shehab(2025)提出了Agentic-AI Healthcare,一个使用模型上下文协议(MCP)的多语言、隐私优先系统。其"隐私与合规层"强制执行RBAC、AES-GCM字段级加密和防篡改审计日志记录,符合HIPAA、PIPEDA和PHIPA标准;将合规性结构性嵌入,而非事后添加。

  • 除了医疗保健,Wang等人(2025d)提出了PrivacyChecker和PrivacyLens-Live用于多智能体LLM环境。这些模型无关的工具利用上下文完整性推理和实时监控来动态缓解隐私风险。

  • 在法律领域,Watson等人(2024)引入了LAW(LEGAL AGENTIC WORKFLOWS),通过设备编排和任务划分减少了幻觉和条款遗漏。

  • Mhia-Alddin和Hussein(2025)增加了一个合同安全层,用于到期跟踪、合规性验证和异常检测。

5 交叉分析与趋势
对所调查的151篇论文进行的交叉分析揭示了清晰的结构模式,如图2所示。更详细的分析见附录C。

  • 架构。规划器-执行器架构(39.8%)和混合模型(结合符号推理或检索与神经控制器,14%)现在占主导地位,取代了早期依赖单一LLM进行端到端推理和行动的单体设计(24.6%)。

  • 智能体角色。执行器和规划器角色占主导地位(129篇论文),反映了该领域在任务分解和控制方面的操作重点。批判者/验证者出现在95篇论文中,而工具调用者(42)和管理者/协调者(24)仍然较少。

  • LLM主干。GPT系列模型出现在83%的研究中,确立了事实上的基准地位,但引发了关于单一文化和可复现性的担忧。Claude(71)和LLaMA(63)构成了下一个主要集群。开源权重主干的逐渐兴起反映了向透明和可审计研究的推动,但模型特定的对齐差异造成了碎片化:安全微调和评估流程很少可转移,阻碍了跨模型泛化和可复现性。

  • 知识源。静态预训练知识仍然是主导知识源(132篇论文),而自适应知识方法如RAG和微调仍然有限。这表明社区偏好轻量级部署而非持续学习,这在动态威胁环境中是实用的但可能不安全。

6 结论
在本综述中,我们探讨了涉及LLM智能体的安全现状,重点关注下游应用、对智能体系统的威胁和防御机制这三个支柱。对150多篇论文的深入分析显示,多智能体系统比单体架构更普遍,GPT模型作为智能体系统核心的事实地位,以及社区在实用部署中偏好预训练知识而非微调或基于RAG的方法。该领域的未来工作应关注跨领域系统的挑战、智能体安全的经济学,并优先考虑具有可证明安全保证的防御科技。

局限性
本综述有一些关键的局限性。它核心关注基于软件的威胁,并未详细探讨物理世界或具身智能体攻击(如涉及机器人或传感器的攻击)。我们的覆盖范围也仅限于英语和首要是学术论文,因此可能遗漏了工业界或非英语的研究。此外,我们审查的许多基准测试运用合成的或简化的测试设置,这使得很难完全判断智能体在真实环境中的表现如何。最后,大多数研究强调准确性和安全性,而不是成本、速度或能源使用等实际方面,而且我们自己的分类法涉及一些主观选择。

posted @ 2026-01-30 18:07  gccbuaa  阅读(0)  评论(0)    收藏  举报