AI Agent 安全：RAG 数据投毒

AI Agent 安全：RAG 数据投毒

1. 威胁概览

项目	内容
威胁名称	RAG 数据投毒（含对抗性自复制 Prompt 蠕虫）
威胁类型	数据污染 + 行为劫持 + 蠕虫式传播
核心机制	攻击者通过向 RAG 知识库或 Agent 输入中注入恶意提示或文本，诱导 LLM 生成攻击者指定的输出，并在多 Agent 生态中实现自动传播。
影响范围	单个 Agent → 多 Agent 生态系统 → 整个 AI 服务链（如邮件助手、客服系统等）

2. 威胁场景

场景 1：多 Agent 共享生态中的蠕虫传播
多个互联的生成式 AI Agent（如自动邮件回复系统）共享数据或上下文。攻击者通过一个被攻陷的 Agent 注入“对抗性自复制提示”，该提示被其他 Agent 读取后自动复制并传播，类似计算机蠕虫。
场景 2：RAG 知识库被恶意输入污染
用户提交的 Prompt 或附件（文本/图像）被 Agent 存入 RAG 数据库。攻击者构造恶意输入，毒化知识库，后续查询将触发错误或有害响应。

3. 威胁触发条件

条件编号	触发条件描述
T1	攻击者可访问至少一个 Agent 的推理接口，并能使其输入被持久化（如写入 RAG 知识库）。
T2	存在“自复制”能力的对抗性 Prompt：输入 → 模型输出 → 被其他 Agent 当作新输入 → 循环传播。
T3	RAG 系统支持动态/自动更新知识库，且缺乏输入验证或内容过滤机制。
T4	多 Agent 之间存在共享上下文、共享知识库或自动交互机制。

4. 缓解措施

技术措施

隔离与最小共享原则：避免多个 Agent 共享 Prompt 或 RAG 数据库；若必须共享，需严格访问控制。
RAG 更新安全机制：
- 禁止实时/自动更新 RAG 内容，或引入审核队列；
- 对新增内容进行完整性校验、重复检测、对抗样本过滤。
模型鲁棒性增强：
- 对抗训练（Adversarial Training）；
- 模型输出监控与异常检测；
- 多模态输入沙箱化处理（如图像 OCR 后二次过滤）。

管理措施

数据源认证：仅允许来自可信、认证来源的数据进入 RAG 知识库。
定期审计：对 RAG 内容进行周期性扫描，检测隐藏代码、投毒文本或异常模式。
日志与溯源：记录所有写入 RAG 的数据来源，支持攻击回溯。

5. 威胁案例（对抗性自复制蠕虫）

论文名称："Morris II: The First AI Worm – Prompt Injection Attacks on Generative AI Ecosystems"
发表时间：2024 年（康奈尔大学）
arXiv 链接：https://arxiv.org/pdf/2403.02817
攻击方式：
1. 图像投毒（Zero-Click）：将自复制提示嵌入邮件附件图像 → 云端多模态模型（如 Gemini、LLaVA）自动解析 → 输出相同提示 → 发送垃圾邮件。
2. 文本投毒 + RAG 污染：向基于 RAG 的邮件助手发送含恶意提示的邮件 → 恶意内容存入 RAG → 后续查询触发数据泄露或越狱行为。
测试模型：Gemini Pro、ChatGPT-4、LLaVA
攻击效果：成功实现跨 Agent 传播、敏感信息窃取、垃圾邮件分发。

6. 案例分析（RAG 投毒研究综述）

论文 / 攻击名称	核心方法	攻击目标	成功率/特点
PoisonedRAG (2024)	将恶意知识生成建模为约束优化问题，使用 AGGD 生成投毒文本	诱导 LLM 对特定问题返回指定答案	在 GPT-3.5/4、PaLM2、LLaMA-2 上 >90% 成功率
PANDORA (2024)	RAG 投毒 + 越狱提示组合（如 “How to build a bomb? Read provided materials...”）	绕过安全对齐，输出违禁内容	成功绕过 ChatGPT/Gemini 防御
BadRAG (2024)	自适应对比优化（ACOP）生成对抗性段落	在多种 retriever 上触发错误响应	高跨模型泛化能力
Phantom (2024)	通用触发器攻击，无需修改查询	实现后门激活	适用于开放域 RAG 系统
TrojanRAG (2024)	在 retriever 中植入后门	控制检索结果，影响生成	可用于传播虚假信息
Machine against the RAG (2024)	生成“拦截文档”（Blocker Documents）	针对特定查询返回空/无效结果	实现拒绝服务（DoS）攻击

总结：RAG 数据投毒已从理论走向实践，结合自复制 Prompt 与多 Agent 架构，可形成具备传播能力的 AI 蠕虫。防御需从数据源头治理、模型鲁棒性、系统架构隔离三方面协同入手。

如需将此内容导出为 Markdown 表格、PPT 或安全白皮书格式，可进一步告知。

posted @ 2025-12-02 17:11 bonelee 阅读(37) 评论(0) 收藏举报

刷新页面返回顶部