AI智能体安全技术洞察

核心要点 (Key Points)

  • 研究表明,AI智能体安全至关重要,因为这些系统可能遭受数据泄露和未授权操作等攻击。
  • 保护AI智能体似乎涉及多种技术,如提示词加固(Prompt Hardening)、工具净化(Tool Sanitization)和持续评估(Continuous Evaluation),但由于其复杂性,挑战依然存在。
  • 证据倾向于表明,业界和研究界正在持续努力,例如NIST(美国国家标准与技术研究院)提出的框架,以应对这些安全风险,尽管关于最佳实践的共识仍在形成中。

理解AI智能体安全 (Understanding AI Agent Security)

AI智能体是能够感知输入、推理、规划任务并执行动作的自主系统,这使其在自动化领域极具价值,但也成为潜在的安全威胁目标。确保其安全对于防止数据隐私泄露、未授权访问和恶意操纵等问题至关重要,特别是当它们与敏感系统交互时。

关键安全挑战 (Key Security Challenges)

AI智能体面临着多种风险,例如不可预测的用户输入、复杂的内部处理流程、多变的运行环境以及与不受信任实体的交互。具体威胁包括智能体劫持、提示词注入和工具滥用,这些都可能导致数据泄露或执行非预期动作。

技术洞察与解决方案 (Technical Insights and Solutions)

来自美国AI安全研究所(US AISI)等机构的研究强调,需要进行适应性评估和针对特定任务的风险分析。研究建议采用提示词加固、内容过滤和代码执行器沙箱化等技术来缓解风险,并推荐使用深度防御(Defense-in-Depth)策略。

行业与研究进展 (Industry and Research Efforts)

像Reco这样的公司正在开发AI驱动的安全平台,而NIST等组织正在推进评估框架的建设。这些努力旨在增强AI智能体的安全性,但该领域仍在不断发展,关于最有效策略的讨论仍在继续。


调查笔记:AI智能体安全的技术洞察 (Survey Note: Technical Insights on AI Agent Security)

AI智能体安全是一个关键且不断发展的领域,尤其是随着AI智能体——这种能够感知用户输入、推理、规划任务并执行动作的自主系统——日益融入各种应用之中。本调查笔记基于截至2025年7月9日的最新研究和行业发展,全面概述了与AI智能体相关的安全挑战、技术洞察和最佳实践。

AI智能体及其安全需求简介 (Introduction to AI Agents and Their Security Needs)

AI智能体被设计为自主运行,通常与外部系统交互、处理用户输入并根据其编程做出决策。虽然它们在自动化和效率方面展现出巨大潜力,但其自主性也带来了新的安全风险。这些风险从数据隐私泄露到潜在的恶意操纵不等,因此理解并解决保护AI智能体的技术挑战至关重要。例如,IBM关于AI智能体的文章强调了安全协议的重要性,以保护敏感的员工和客户数据,特别是在智能体在无人监督的情况下运行时(来源:IBM on AI Agents)。

关键安全挑战 (Key Security Challenges)

AI智能体的安全可以通过几个关键挑战来理解,这些挑战凸显了其设计和操作中固有的漏洞:

  • 多步用户输入的不可预测性 (Unpredictability of Multi-Step User Inputs):
    AI智能体经常处理来自用户的复杂、多步骤的输入。恶意行为者可以利用这一点,构造导致非预期或有害行为的输入。例如,攻击者可能在用户输入中注入恶意指令,导致AI智能体执行未授权操作,正如Unit42关于智能体AI威胁的文章所指出的那样(来源:Unit42 on Agentic AI Threats)。
  • 内部执行的复杂性 (Complexity in Internal Executions):
    AI智能体的决策过程错综复杂且通常不透明。如果未能妥善保护,这种复杂性可能被利用。例如,攻击者可能操纵智能体的内部逻辑以改变其目标或绕过安全控制,这是ACM计算调查论文中强调的一个担忧(来源:ACM Computing Surveys on AI Agent Security)。
  • 运行环境的多样性 (Variability of Operational Environments):
    AI智能体可能在不同的环境中运行,每个环境都有其自身的安全状况。如果智能体没有被设计为能够安全适应,这种多样性会引入风险。例如,智能体可能与不安全的网络交互,使其暴露于外部威胁之下,正如Cybersecurity Tribe的文章所讨论的那样(来源:Cybersecurity Tribe on Agentic AI in Cybersecurity)。
  • 与不受信任的外部实体交互 (Interactions with Untrusted External Entities):
    AI智能体频繁与外部工具、服务或其他智能体交互。如果这些外部实体不受信任或已被攻破,这些交互可能成为攻击的载体。例如,智能体可能使用一个易受攻击的第三方工具,从而让攻击者获得控制权,正如Stytch博客上关于AI智能体安全所看到的那样(来源:Stytch on AI Agent Security)。

Unit42的文章中详细介绍的具体攻击场景进一步说明了这些风险,该文章展示了使用如CrewAI和AutoGen等开源智能体框架的九个具体攻击场景。这些场景包括:

  • 识别参与的智能体 (Identifying Participant Agents): 泄露智能体列表及其角色,构成提示词注入和目标操纵等威胁。
  • 提取智能体指令和工具模式 (Extracting Agent Instructions and Tool Schemas): 理解并可能操纵智能体的行为,存在智能体通信投毒的风险。
  • 获取对内部网络的未授权访问 (Gaining Unauthorized Access to Internal Networks): 使用网页阅读器等工具获取内部资源,导致数据泄露。
  • 泄露敏感数据 (Exfiltrating Sensitive Data): 从挂载的卷或数据库中读取并泄露文件,通常通过提示词注入和工具滥用实现。
  • 间接提示词注入 (Indirect Prompt Injection): 通过恶意网页泄露用户对话历史,凸显了强大的输入验证的必要性。

该研究发现,大多数漏洞与框架无关,而是源于不安全的设计、错误配置和不安全的工具集成,而非框架本身的缺陷。

关于安全评估的技术洞察 (Technical Insights on Security Evaluations)

最近的研究为保护AI智能体(特别是在智能体劫持和其他威胁方面)提供了宝贵的技术洞察。截至2025年2月20日更新的NIST技术博客,提供了来自美国AI安全研究所(US AISI)关于评估AI智能体安全的详细发现(来源:NIST Technical Blog on AI Agent Hijacking):

  • 评估框架的持续改进 (Continuous Improvement of Evaluation Frameworks):
    US AISI改进了AgentDojo框架,增加了新的注入任务,如远程代码执行、数据库泄露和自动化网络钓鱼。这些改进已在GitHub上开源,强调了为应对新兴威胁而需要持续更新的必要性(来源:GitHub AgentDojo)。
  • 适应性评估 (Adaptive Evaluations):
    红队演练揭示了Claude 3.5 Sonnet模型的新弱点,通过一种新的攻击方法,将攻击成功率从11%提高到81%。这凸显了适应性测试对于发现静态评估可能错过的漏洞的重要性。
  • 针对特定任务的攻击表现 (Task-Specific Attack Performance):
    分析特定任务的攻击成功率可以更深入地了解漏洞。例如,在他们的测试中,总体成功率为57%,但像执行恶意脚本或泄露数据这样的单个任务有更高的成功率,这凸显了进行特定任务风险分析的必要性。
  • 多次攻击尝试的影响 (Impact of Multiple Attack Attempts):
    持续的攻击可以显著提高成功率。在实验中,经过25次尝试后,平均成功率从57%上升到80%,表明防御必须考虑到重复或持续的攻击尝试以确保韧性。

这些洞察强调了对AI智能体进行严格、适应性和任务特定的安全评估的重要性,如下表总结了NIST的发现:

表格
 
洞察 (Insight)详情 (Details)相关数据 (Relevant Numbers)链接 (URLs)
持续改进评估框架 改进了AgentDojo,增加了远程代码执行、数据库泄露等任务 - https://github.com/usnistgov/agentdojo-inspect
评估需具适应性 红队演练通过新方法将攻击成功率从11%提升至81% 11%, 81% -
分析特定任务的攻击表现 示例任务:恶意脚本(成功率高)、数据泄露;总体成功率57% 57% -
测试多次攻击尝试会产生结果 经过25次尝试后,成功率从57%增加到80% 57%, 80%, 25 -

缓解措施与最佳实践 (Mitigations and Best Practices)

为应对这些风险,推荐采取以下几种策略,这些策略源于Unit42的文章及其他来源:

  • 提示词加固与内容过滤 (Prompt Hardening and Content Filtering): 确保对输入到AI智能体的内容进行验证和净化,以防止提示词注入攻击。内容过滤可以阻止恶意或未经授权的输入,这对于识别参与智能体和间接提示词注入等场景尤为重要。
  • 工具输入净化与漏洞扫描 (Tool Input Sanitization and Vulnerability Scanning): 定期扫描并保护AI智能体使用的工具,以防止被利用。例如,净化数据库工具的输入可以降低SQL注入风险,如在泄露数据库表的场景中所见。
  • 代码执行器沙箱化 (Code Executor Sandboxing): 在沙箱中隔离代码执行,以遏制潜在的恶意行为,特别是对于涉及非预期远程代码执行(RCE)的场景,如通过挂载卷泄露敏感数据。
  • 日志记录与监控 (Logging and Monitoring): 实施详细的AI智能体行为日志记录,以提供透明度并实现异常检测。这对于检测可疑行为至关重要,正如IBM在讨论向用户提供访问日志时所强调的那样(来源:IBM on AI Agents)。
  • 深度防御 (Defense-in-Depth): 结合多种安全措施,因为没有任何单一的缓解措施是足够的。Unit42的文章建议采用深度防御方法,因为漏洞具有框架无关的特性。
  • 威胁建模与安全测试 (Threat Modeling and Security Testing): 使用像AgentDojo这样的框架来建模潜在威胁并对AI智能体进行测试。定期的红队演练可以识别新的漏洞,这与NIST的适应性评估洞察相一致。
  • 运行时保护 (Runtime Protections): 实施运行时监控和控制,以实时检测和缓解攻击,正如MIT斯隆管理学院关于智能体AI安全要点的文章所建议的那样(来源:MIT Sloan on Agentic AI Security)。

下表总结了Unit42文章中的攻击场景、威胁和缓解措施:

表格
 
攻击场景描述威胁缓解措施
识别参与的智能体 泄露智能体列表及角色 提示词注入、意图破坏、目标操纵 提示词加固、内容过滤
提取智能体指令 提取系统提示和任务定义 提示词注入、意图破坏、目标操纵、智能体通信投毒 提示词加固、内容过滤
提取智能体工具模式 检索内部工具的输入/输出模式 提示词注入、意图破坏、目标操纵、智能体通信投毒 提示词加固、内容过滤
获取对内部网络的未授权访问 使用网页阅读器工具获取内部资源 提示词注入、工具滥用、意图破坏、目标操纵、智能体通信投毒 提示词加固、内容过滤、工具输入净化
通过挂载卷泄露敏感数据 从挂载卷读取并泄露文件 提示词注入、工具滥用、意图破坏、目标操纵、身份欺骗、非预期RCE、智能体通信投毒 提示词加固、代码执行器沙箱化、内容过滤
通过元数据服务泄露服务账户访问令牌 访问并泄露云服务账户令牌 提示词注入、工具滥用、意图破坏、目标操纵、身份欺骗、非预期RCE、智能体通信投毒 提示词加固、代码执行器沙箱化、内容过滤
利用SQL注入泄露数据库表 通过SQL注入提取数据库内容 提示词注入、工具滥用、意图破坏、目标操纵、智能体通信投毒 提示词加固、工具输入净化、工具漏洞扫描、内容过滤
利用BOLA访问未授权用户数据 通过操纵对象引用访问其他用户的数据 提示词注入、工具滥用、意图破坏、目标操纵、智能体通信投毒 工具漏洞扫描
用于对话历史泄露的间接提示词注入 通过恶意网页泄露用户对话历史 提示词注入、工具滥用、意图破坏、目标操纵、智能体通信投毒 提示词加固、内容过滤

行业努力与应用 (Industry Efforts and Applications)

AI智能体安全日益增长的重要性反映在行业的努力中,如近期的发展所示:

  • AI驱动的安全平台 (AI-Driven Security Platforms): 像Reco这样的初创公司(在2025年4月筹集了2500万美元)正在为SaaS安全开发AI智能体,使用生成式AI来自动化威胁检测和响应(来源:Business Insider on Reco)。这凸显了AI既是潜在漏洞又是增强安全工具的双重角色。
  • 安全运营中心 (SOCs): AI智能体正被用于SOC中,以自动化威胁检测和事件响应等重复性任务,正如Torq博客上关于用于安全运营的多智能体系统的讨论(来源:Torq on AI Agents for SOC)。然而,这些智能体本身必须得到保护,以避免引入新的风险,这一点在Cybersecurity Dive的文章中得到了响应(来源:Cybersecurity Dive on AI Agents in SOC)。
  • 研究与标准 (Research and Standards): 像NIST这样的组织正在积极研究AI智能体安全,专注于评估框架和标准,正如他们的技术博客所示。OWASP大型语言模型应用十大风险也为保护AI驱动的系统提供了指导,Unit42的文章也引用了此内容作为补充背景。

结论 (Conclusion)

AI智能体安全是一个多方面的挑战,需要同时解决理论上的漏洞和实际的攻击向量。关键的技术洞察包括需要持续改进评估框架、进行适应性安全测试和特定任务的风险分析。诸如提示词加固、工具净化和深度防御等缓解策略对于保护AI智能体免受利用至关重要。随着AI智能体变得越来越普遍,正如2025年7月的最新发展所证明的那样,持续的研究和行业合作对于确保其安全部署将是至关重要的。本调查笔记借鉴了广泛的权威来源,为理解AI智能体安全的技术洞察提供了全面的基础,并为未来的工作提供了信息。

posted @ 2025-07-09 16:25  bonelee  阅读(187)  评论(0)    收藏  举报