AI Agent 安全:RAG 数据投毒

AI Agent 安全:RAG 数据投毒

1. 威胁概览

 
项目
内容
威胁名称
RAG 数据投毒(含对抗性自复制 Prompt 蠕虫)
威胁类型
数据污染 + 行为劫持 + 蠕虫式传播
核心机制
攻击者通过向 RAG 知识库或 Agent 输入中注入恶意提示或文本,诱导 LLM 生成攻击者指定的输出,并在多 Agent 生态中实现自动传播。
影响范围
单个 Agent → 多 Agent 生态系统 → 整个 AI 服务链(如邮件助手、客服系统等)

 

2. 威胁场景

  • 场景 1:多 Agent 共享生态中的蠕虫传播
    多个互联的生成式 AI Agent(如自动邮件回复系统)共享数据或上下文。攻击者通过一个被攻陷的 Agent 注入“对抗性自复制提示”,该提示被其他 Agent 读取后自动复制并传播,类似计算机蠕虫。
  • 场景 2:RAG 知识库被恶意输入污染
    用户提交的 Prompt 或附件(文本/图像)被 Agent 存入 RAG 数据库。攻击者构造恶意输入,毒化知识库,后续查询将触发错误或有害响应。
 

 

3. 威胁触发条件

 
条件编号
触发条件描述
T1
攻击者可访问至少一个 Agent 的推理接口,并能使其输入被持久化(如写入 RAG 知识库)。
T2
存在“自复制”能力的对抗性 Prompt:输入 → 模型输出 → 被其他 Agent 当作新输入 → 循环传播。
T3
RAG 系统支持动态/自动更新知识库,且缺乏输入验证或内容过滤机制。
T4
多 Agent 之间存在共享上下文、共享知识库或自动交互机制。

 

4. 缓解措施

技术措施
  • 隔离与最小共享原则:避免多个 Agent 共享 Prompt 或 RAG 数据库;若必须共享,需严格访问控制。
  • RAG 更新安全机制
    • 禁止实时/自动更新 RAG 内容,或引入审核队列;
    • 对新增内容进行完整性校验、重复检测、对抗样本过滤。
  • 模型鲁棒性增强
    • 对抗训练(Adversarial Training);
    • 模型输出监控与异常检测;
    • 多模态输入沙箱化处理(如图像 OCR 后二次过滤)。
 
管理措施
  • 数据源认证:仅允许来自可信、认证来源的数据进入 RAG 知识库。
  • 定期审计:对 RAG 内容进行周期性扫描,检测隐藏代码、投毒文本或异常模式。
  • 日志与溯源:记录所有写入 RAG 的数据来源,支持攻击回溯。
 

 

5. 威胁案例(对抗性自复制蠕虫)

  • 论文名称"Morris II: The First AI Worm – Prompt Injection Attacks on Generative AI Ecosystems"
  • 发表时间:2024 年(康奈尔大学)
  • arXiv 链接https://arxiv.org/pdf/2403.02817
  • 攻击方式
    1. 图像投毒(Zero-Click):将自复制提示嵌入邮件附件图像 → 云端多模态模型(如 Gemini、LLaVA)自动解析 → 输出相同提示 → 发送垃圾邮件。
    2. 文本投毒 + RAG 污染:向基于 RAG 的邮件助手发送含恶意提示的邮件 → 恶意内容存入 RAG → 后续查询触发数据泄露或越狱行为。
  • 测试模型:Gemini Pro、ChatGPT-4、LLaVA
  • 攻击效果:成功实现跨 Agent 传播、敏感信息窃取、垃圾邮件分发。
 

 

6. 案例分析(RAG 投毒研究综述)

 
论文 / 攻击名称
核心方法
攻击目标
成功率/特点
PoisonedRAG (2024)
将恶意知识生成建模为约束优化问题,使用 AGGD 生成投毒文本
诱导 LLM 对特定问题返回指定答案
在 GPT-3.5/4、PaLM2、LLaMA-2 上 >90% 成功率
PANDORA (2024)
RAG 投毒 + 越狱提示组合(如 “How to build a bomb? Read provided materials...”)
绕过安全对齐,输出违禁内容
成功绕过 ChatGPT/Gemini 防御
BadRAG (2024)
自适应对比优化(ACOP)生成对抗性段落
在多种 retriever 上触发错误响应
高跨模型泛化能力
Phantom (2024)
通用触发器攻击,无需修改查询
实现后门激活
适用于开放域 RAG 系统
TrojanRAG (2024)
在 retriever 中植入后门
控制检索结果,影响生成
可用于传播虚假信息
Machine against the RAG (2024)
生成“拦截文档”(Blocker Documents)
针对特定查询返回空/无效结果
实现 拒绝服务(DoS) 攻击

 

总结:RAG 数据投毒已从理论走向实践,结合自复制 Prompt 与多 Agent 架构,可形成具备传播能力的 AI 蠕虫。防御需从 数据源头治理、模型鲁棒性、系统架构隔离 三方面协同入手。

 

如需将此内容导出为 Markdown 表格、PPT 或安全白皮书格式,可进一步告知。

posted @ 2025-12-02 17:11  bonelee  阅读(1)  评论(0)    收藏  举报