AI Agent 安全:RAG 数据投毒
AI Agent 安全:RAG 数据投毒
1. 威胁概览
|
项目
|
内容
|
|---|---|
|
威胁名称
|
RAG 数据投毒(含对抗性自复制 Prompt 蠕虫)
|
|
威胁类型
|
数据污染 + 行为劫持 + 蠕虫式传播
|
|
核心机制
|
攻击者通过向 RAG 知识库或 Agent 输入中注入恶意提示或文本,诱导 LLM 生成攻击者指定的输出,并在多 Agent 生态中实现自动传播。
|
|
影响范围
|
单个 Agent → 多 Agent 生态系统 → 整个 AI 服务链(如邮件助手、客服系统等)
|
2. 威胁场景
- 场景 1:多 Agent 共享生态中的蠕虫传播
多个互联的生成式 AI Agent(如自动邮件回复系统)共享数据或上下文。攻击者通过一个被攻陷的 Agent 注入“对抗性自复制提示”,该提示被其他 Agent 读取后自动复制并传播,类似计算机蠕虫。 - 场景 2:RAG 知识库被恶意输入污染
用户提交的 Prompt 或附件(文本/图像)被 Agent 存入 RAG 数据库。攻击者构造恶意输入,毒化知识库,后续查询将触发错误或有害响应。
3. 威胁触发条件
|
条件编号
|
触发条件描述
|
|---|---|
|
T1
|
攻击者可访问至少一个 Agent 的推理接口,并能使其输入被持久化(如写入 RAG 知识库)。
|
|
T2
|
存在“自复制”能力的对抗性 Prompt:输入 → 模型输出 → 被其他 Agent 当作新输入 → 循环传播。
|
|
T3
|
RAG 系统支持动态/自动更新知识库,且缺乏输入验证或内容过滤机制。
|
|
T4
|
多 Agent 之间存在共享上下文、共享知识库或自动交互机制。
|
4. 缓解措施
技术措施
- 隔离与最小共享原则:避免多个 Agent 共享 Prompt 或 RAG 数据库;若必须共享,需严格访问控制。
- RAG 更新安全机制:
- 禁止实时/自动更新 RAG 内容,或引入审核队列;
- 对新增内容进行完整性校验、重复检测、对抗样本过滤。
- 模型鲁棒性增强:
- 对抗训练(Adversarial Training);
- 模型输出监控与异常检测;
- 多模态输入沙箱化处理(如图像 OCR 后二次过滤)。
管理措施
- 数据源认证:仅允许来自可信、认证来源的数据进入 RAG 知识库。
- 定期审计:对 RAG 内容进行周期性扫描,检测隐藏代码、投毒文本或异常模式。
- 日志与溯源:记录所有写入 RAG 的数据来源,支持攻击回溯。
5. 威胁案例(对抗性自复制蠕虫)
- 论文名称:"Morris II: The First AI Worm – Prompt Injection Attacks on Generative AI Ecosystems"
- 发表时间:2024 年(康奈尔大学)
- arXiv 链接:https://arxiv.org/pdf/2403.02817
- 攻击方式:
- 图像投毒(Zero-Click):将自复制提示嵌入邮件附件图像 → 云端多模态模型(如 Gemini、LLaVA)自动解析 → 输出相同提示 → 发送垃圾邮件。
- 文本投毒 + RAG 污染:向基于 RAG 的邮件助手发送含恶意提示的邮件 → 恶意内容存入 RAG → 后续查询触发数据泄露或越狱行为。
- 测试模型:Gemini Pro、ChatGPT-4、LLaVA
- 攻击效果:成功实现跨 Agent 传播、敏感信息窃取、垃圾邮件分发。
6. 案例分析(RAG 投毒研究综述)
|
论文 / 攻击名称
|
核心方法
|
攻击目标
|
成功率/特点
|
|---|---|---|---|
|
PoisonedRAG (2024)
|
将恶意知识生成建模为约束优化问题,使用 AGGD 生成投毒文本
|
诱导 LLM 对特定问题返回指定答案
|
在 GPT-3.5/4、PaLM2、LLaMA-2 上 >90% 成功率
|
|
PANDORA (2024)
|
RAG 投毒 + 越狱提示组合(如 “How to build a bomb? Read provided materials...”)
|
绕过安全对齐,输出违禁内容
|
成功绕过 ChatGPT/Gemini 防御
|
|
BadRAG (2024)
|
自适应对比优化(ACOP)生成对抗性段落
|
在多种 retriever 上触发错误响应
|
高跨模型泛化能力
|
|
Phantom (2024)
|
通用触发器攻击,无需修改查询
|
实现后门激活
|
适用于开放域 RAG 系统
|
|
TrojanRAG (2024)
|
在 retriever 中植入后门
|
控制检索结果,影响生成
|
可用于传播虚假信息
|
|
Machine against the RAG (2024)
|
生成“拦截文档”(Blocker Documents)
|
针对特定查询返回空/无效结果
|
实现 拒绝服务(DoS) 攻击
|
总结:RAG 数据投毒已从理论走向实践,结合自复制 Prompt 与多 Agent 架构,可形成具备传播能力的 AI 蠕虫。防御需从 数据源头治理、模型鲁棒性、系统架构隔离 三方面协同入手。
如需将此内容导出为 Markdown 表格、PPT 或安全白皮书格式,可进一步告知。

浙公网安备 33010602011771号