最近2年前沿的RAG安全前沿技术研究

以下内容由李智华整理,主要来自deep reasearch的学术研究成果汇总。

 

针对您关注的RAG(检索增强生成)安全领域,近两年(2024-2025)的研究主要集中在**数据投毒(Data Poisoning)、提示注入(Prompt Injection)和隐私泄露(Privacy Leakage)**三大方向。

以下是为您汇总的前沿技术Paper技术表格:

RAG安全前沿技术汇总表 (2024-2025)

安全领域 Paper标题 年份 核心问题 攻击/防御技术方案 (Key Technique)
数据投毒<br>(Data Poisoning) Poison-RAG: Adversarial Data Poisoning Attacks on RAG 2025 攻击推荐系统 攻击: 向知识库注入带有对抗性元数据(Tags/描述)的恶意文档,利用LLM生成的对抗性嵌入来操纵检索结果,使长尾(不流行)内容被优先推荐。[1][2][3]
  RAG Safety: Exploring Knowledge Poisoning Attacks 2025 知识图谱投毒 攻击: 针对基于知识图谱的RAG(KG-RAG),通过插入微小的扰动三元组(Perturbation Triples)来切断或误导推理链,导致生成错误答案。[4]
  TrustRAG: A Framework for Secure RAG 2025 投毒防御 防御: 提出了一种基于信任度的检索框架,在检索阶段引入“信任评分”机制,过滤掉低可信度的来源,防止投毒数据进入上下文。
提示注入<br>(Prompt Injection) Securing AI Agents Against Prompt Injection Attacks 2025 代理注入防御 防御: 提出了多层防御框架,包括:1) 基于Embedding的异常检测内容过滤;2) 分层系统提示护栏(Guardrails);3) 多阶段响应验证机制。[5][6]
  Backdoored Retrievers for Prompt Injection Attacks 2024 检索器后门 攻击: 不直接攻击LLM,而是通过微调检索器(Dense Retriever)植入后门。当Query包含特定触发词时,检索器会强制检索出含有恶意指令的文档(如钓鱼链接)。
  PR-Attack: Coordinated Prompt-RAG Attacks 2025 联合攻击 攻击: 结合了Prompt注入和检索投毒的联合攻击方法,利用双层优化(Bilevel Optimization)生成不仅能误导检索器还能在生成阶段触发LLM越狱的对抗样本。
隐私泄露<br>(Privacy Leakage) The Good and The Bad: Exploring Privacy Issues in RAG 2024 隐私泄露评估 分析: 揭示了RAG的双刃剑效应:一方面RAG可能泄露私有检索数据库中的敏感信息(如PII);另一方面,RAG反而能掩盖LLM训练数据中的隐私,减少训练数据的记忆泄露。[7][8]
  Privacy-Aware Decoding (PAD) 2025 推理时防御 防御: 一种轻量级的解码策略。在Token生成阶段,动态计算隐私敏感度,并向Logits注入校准的高斯噪声,在不重新训练模型的情况下实现差分隐私保护。[9]
  DEAL: High-Efficacy Privacy Attack via LLM Optimizer 2025 提取攻击 攻击: 使用一个LLM作为优化器,自动迭代生成攻击后缀(Attack Suffix),能以极高成功率诱导RAG系统输出检索文档中的完整原文或特定隐私信息。
  SAGE: Mitigating Privacy Issues via Pure Synthetic Data 2024 数据合成防御 防御: 不直接使用私有数据构建索引,而是通过两阶段生成(属性提取+代理细化)创建“纯合成数据”作为知识库,既保留了检索效用,又在物理上隔离了真实隐私数据。

 

关键技术趋势解读

  1. 从“文本投毒”转向“结构化投毒”
    早期的攻击多是向文档库塞入乱码或误导性文本,2025年的Paper(如针对KG-RAG的研究)开始关注知识图谱结构嵌入空间的隐蔽投毒,这种攻击更难被传统的关键词过滤发现。

  2. 检索器(Retriever)成为新靶点
    以前的安全研究多关注LLM本身(生成阶段),现在的攻击者发现攻破检索器效率更高。通过向检索器植入后门(Backdoored Retrievers),攻击者可以控制RAG系统“看到”什么,从而间接控制生成结果。

  3. 防御向“推理时”和“数据合成”转移

    • 推理时防御(Inference-time Defense): 像PAD这样的技术不需要昂贵的模型重训练,直接在生成过程中进行隐私保护,更符合工业界落地需求。

    • 合成数据(Synthetic Data): 为了彻底解决隐私合规问题,直接用高质量的合成数据替代原始敏感数据构建索引,正在成为金融和医疗RAG系统的新趋势。

基于最近1-2年(2024-2025年)内关于RAG(Retrieval-Augmented Generation)安全(包括安全性、隐私和鲁棒性等方面)前沿技术的论文汇总。我从学术来源(如arXiv)中筛选了10篇代表性论文,这些论文聚焦于威胁模型、攻击向量、防御机制和评估框架等前沿领域。表格包括论文标题、发布年份、关键技术/贡献要点,以及简要描述。数据来源于可靠的学术搜索结果。

 
 
论文标题发布年份关键技术/贡献简要描述
RAG Security and Privacy: Formalizing the Threat Model and Attack 2025 威胁模型形式化、攻击向量分析 提出RAG系统的威胁模型,结合LLM与外部检索,探讨隐私泄露和攻击风险。
RAG Makes Guardrails Unsafe? Investigating Robustness of Guardrails in Retrieval-Augmented Generation 2025 护栏鲁棒性测试、RAG对安全影响评估 研究RAG如何削弱LLM护栏的安全性,并提出风险增加的实证分析。
RAG Safety: Exploring Knowledge Poisoning Attacks to Retrieval-Augmented Knowledge Graphs 2025 知识图谱中毒攻击、KG-RAG安全调查 系统调查KG-RAG的数据中毒攻击,探讨安全漏洞和防御策略。
Provably Secure Retrieval-Augmented Generation 2025 可证明安全机制、数据泄露和中毒防御 开发可证明安全的RAG系统,针对系统性风险提出防御框架。
Securing RAG: A Risk Assessment and Mitigation Framework 2025 风险评估框架、管道漏洞缓解 审查RAG管道漏洞,从数据预处理到存储,提供缓解框架。
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation 2025 检索与生成安全基准、综合评估 引入SafeRAG基准,评估RAG的检索和生成安全,提供全面视角。
Exploring Privacy Issues in Retrieval-Augmented Generation (RAG) 2024 隐私保护技术、专有数据集成 探讨RAG中隐私问题,强调数据隐私在LLM增强中的作用。
BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation Systems 2024 漏洞识别框架、检索与生成攻击 引入BadRAG框架,针对RAG检索和生成阶段的安全漏洞。
HijackRAG: Hijacking Attacks against Retrieval-Augmented Large Language Models 2024 检索提示劫持攻击、操纵机制 揭示HijackRAG漏洞,允许攻击者操纵RAG检索机制。
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) through Synthetic Data 2024 合成数据隐私缓解、安全关键领域应用 使用合成数据减轻RAG隐私风险,针对安全关键系统。
 

根据2024–2025年关于RAG(检索增强生成)安全方向的前沿研究,我为你汇总了以下技术论文表格。这些工作涵盖了隐私保护、对抗攻击、安全评估基准、干扰攻击(jamming)以及面向安全运营的RAG应用等多个维度,与你此前关注的端侧数据隐私(如通过AICC加密)和安全检测背景高度相关。

 
 
论文名称
作者/出处
年份
核心技术/方法
安全问题类型
备注
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation
X. Liang et al.
2025
构建了针对RAG系统的安全评估基准,定义四类攻击任务(如silver noise、inter-context injection等)
数据注入攻击、组件漏洞
首次系统评估RAG检索与生成模块的安全性 1014
RAG-Thief: Scalable Extraction of Private Data from RAG Applications
B. Wang et al.
2024
基于智能体的自动化隐私攻击方法,可从私有知识库中提取>70%敏感信息
隐私泄露、数据提取
针对RAG部署中私有数据暴露风险 2125
Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents
A. Shafran et al. (USENIX Security '25)
2025
利用“阻塞文档”(blocker documents)注入干扰内容,引发RAG系统拒绝服务或输出错误
拒绝服务、内容污染
针对开放内容源场景的新型DoS攻击 3039
Privacy-Preserving Retrieval-Augmented Generation with Differential Privacy
T. Koga et al.
2024
将差分隐私(DP)引入RAG检索与生成流程,提供形式化隐私保障
数据隐私、输出泄露
适合处理个人敏感数据的RAG隐私方案 5758
Private-RAG: Answering Multiple Queries with LLMs while Preserving Privacy
T. Koga et al.
2025
扩展DP-RAG至多轮查询场景,解决单次查询模型不满足实际需求的问题
多轮查询隐私累积泄露
更贴近真实部署场景 56
CyberRAG: An Agentic RAG Cyber Attack Classification and Reporting Tool
F. Blefari et al.
2025
基于多智能体RAG框架,实现攻击分类、自然语言解释与结构化报告生成
安全运营、攻击识别
可与IDS集成,适用于你关注的网络安全检测场景 4247

补充说明:

  • 与你兴趣的相关性
    • 若你希望在端侧RAG中实现“仅用户可读”的加密方案(如AICC),差分隐私类工作(如 Private-RAG)虽提供形式化隐私保障,但不提供“密文访问控制”,可作为辅助手段。
    • RAG-ThiefSafeRAG 揭示了RAG系统在私有知识库泄露和组件脆弱性方面的风险,对设计安全端侧RAG架构具有警示意义。
    • CyberRAG 与你在网络安全、恶意程序识别等方向的研究高度契合,可作为安全智能体设计参考。

 

 

 

 

RAG安全技术洞察总结(2024–2025)

RAG作为连接大语言模型(LLM)与外部知识的关键桥梁,在提升生成准确性的同时,也引入了全新的安全攻击面。近两年的研究表明,RAG安全问题已从“生成侧单点防御”演进为覆盖数据源、检索器、生成器、用户交互全链路的系统性挑战。主要可归纳为三大趋势与一个核心矛盾:

 

 

1. 攻击重心从“生成模型”转向“检索管道”

早期安全研究集中于LLM的提示注入或越狱,而当前主流攻击已前移至RAG的检索环节

  • 检索器成为高价值攻击目标:如 Backdoored Retrievers(2024)展示了仅微调检索器即可植入后门,使系统在特定Query触发下返回恶意文档;HijackRAG 进一步揭示了对检索提示的劫持机制。
  • 结构化投毒兴起:相比文本垃圾投毒,KG-RAG Poisoning(2025)通过扰动知识图谱三元组,隐蔽破坏推理链,对金融、医疗等结构化知识场景构成高危威胁。
  • 干扰型攻击(Jamming)出现Machine Against the RAG 提出“阻塞文档”攻击,可引发服务降级或拒绝服务,凸显RAG在开放知识源下的脆弱性。
 

启示:端侧RAG部署时,不能仅依赖LLM护栏;需对检索器本身进行完整性校验、输入过滤与运行时监控。

 

 

2. 隐私保护从“训练数据隔离”转向“全生命周期防护”

RAG的隐私风险具有双重性:既可能泄露私有知识库(如客户数据),也可能意外暴露LLM内部记忆。最新研究提出多层次防护策略:

  • 推理时轻量防御:如 Privacy-Aware Decoding (PAD)生成阶段注入校准噪声,实现无需重训练的差分隐私,适合资源受限的端侧设备。
  • 数据物理隔离SAGESynthetic Data Mitigation 提出用高质量合成数据替代真实敏感数据构建索引,从根本上切断隐私泄露路径——这对医疗、金融等强合规场景尤为重要。
  • 多轮查询隐私累积建模Private-RAG 首次将DP机制扩展至多轮交互,直面真实应用场景中的隐私衰减问题。
 

与你工作的关联:你关注的“AICC端侧加密”属于“访问控制型隐私”,与差分隐私(DP)和合成数据形成互补。在便携式AI硬件中,可考虑“合成数据索引 + AICC密文存储 + PAD推理保护”的三层架构,兼顾性能、合规与安全。

 

 

3. 安全评估与防御走向系统化、基准化

社区正快速构建RAG专属安全基础设施:

  • 标准化基准出现SafeRAG(2025)首次定义RAG安全评估四象限(如上下文注入、噪声干扰等),为防御方案提供可比性度量。
  • 端到端风险框架建立:如 Securing RAG(2025)系统梳理从数据预处理、索引构建到检索生成的全管道漏洞,并提出缓解checklist。
  • 安全-效用权衡显性化:多篇论文指出,过度防御(如强DP噪声)会显著降低检索相关性——未来方向需在“安全强度”与“任务性能”间动态平衡。
 

 

核心矛盾:RAG的“开放性”与“可控性”难以兼得

RAG的本质优势在于动态接入外部知识,但这也使其成为安全闭环中最难控的一环。攻击者无需破解模型,只需污染或操控“看到的信息”,即可间接控制输出。真正的安全RAG,必须同时保证“所见即所信”与“所答即所允”

 

 

面向你技术方向的建议

结合你在端侧AI硬件、网络安全检测、AICC加密等方面的实践:

  1. 在便携设备RAG方案中,优先采用合成数据构建本地索引,避免原始敏感数据驻留;
  2. 检索器部署时加入轻量信任机制(如TrustRAG的可信评分),防止投毒文档进入上下文;
  3. 对接安全运营场景时,可参考 CyberRAG 构建基于RAG的攻击解释与报告生成智能体,提升SOC效率;
  4. 探索AICC与推理时防御(如PAD)的协同,实现“数据静态加密 + 推理动态扰动”的纵深防御。
 

 

RAG安全已进入“深水区”——不再是LLM的附属问题,而是一个独立的、需专门设计的安全子系统。未来1–2年,随着RAG在企业级和端侧场景的普及,围绕可验证检索、零知识RAG、硬件级隐私计算的创新将成为关键突破口。

posted @ 2025-12-16 17:27  bonelee  阅读(12)  评论(0)    收藏  举报