AI代理部署安全挑战与红队攻防基准

安全挑战在AI代理部署中的体现:来自大规模公开竞赛的见解

近期进展使得基于大语言模型的AI代理能够通过结合语言模型推理与工具、内存和网络访问,自主执行复杂任务。但这些系统在真实环境中(尤其是遭受攻击时)能否遵循部署策略?为探究该问题,我们开展了迄今规模最大的公开红队测试竞赛,针对22个前沿AI代理覆盖44个真实部署场景。参赛者提交了180万次提示注入攻击,其中超过6万次成功引发策略违规,包括未授权数据访问、非法金融操作和监管不合规等行为。

我们利用这些结果构建了Agent Red Teaming(ART)基准——一套精选的高影响力攻击集——并在19个最先进模型上进行评估。几乎所有代理在10-100次查询内都对大多数行为表现出策略违规,且攻击在不同模型和任务间具有高可迁移性。重要的是,我们发现代理鲁棒性与模型规模、能力或推理时计算量相关性有限,表明需要针对对抗性滥用部署额外防御措施。

我们的研究结果凸显了当前AI代理中存在的关键且持续存在的漏洞。通过发布ART基准及配套评估框架,我们旨在支持更严格的安全评估,并推动更安全代理部署的进展。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-08-23 14:03  CodeShare  阅读(12)  评论(0)    收藏  举报