最近2年前沿的RAG安全前沿技术研究
以下内容由李智华整理,主要来自deep reasearch的学术研究成果汇总。
针对您关注的RAG(检索增强生成)安全领域,近两年(2024-2025)的研究主要集中在**数据投毒(Data Poisoning)、提示注入(Prompt Injection)和隐私泄露(Privacy Leakage)**三大方向。
以下是为您汇总的前沿技术Paper技术表格:
RAG安全前沿技术汇总表 (2024-2025)
| 安全领域 | Paper标题 | 年份 | 核心问题 | 攻击/防御技术方案 (Key Technique) |
| 数据投毒<br>(Data Poisoning) | Poison-RAG: Adversarial Data Poisoning Attacks on RAG | 2025 | 攻击推荐系统 | 攻击: 向知识库注入带有对抗性元数据(Tags/描述)的恶意文档,利用LLM生成的对抗性嵌入来操纵检索结果,使长尾(不流行)内容被优先推荐。[1][2][3] |
| RAG Safety: Exploring Knowledge Poisoning Attacks | 2025 | 知识图谱投毒 | 攻击: 针对基于知识图谱的RAG(KG-RAG),通过插入微小的扰动三元组(Perturbation Triples)来切断或误导推理链,导致生成错误答案。[4] | |
| TrustRAG: A Framework for Secure RAG | 2025 | 投毒防御 | 防御: 提出了一种基于信任度的检索框架,在检索阶段引入“信任评分”机制,过滤掉低可信度的来源,防止投毒数据进入上下文。 | |
| 提示注入<br>(Prompt Injection) | Securing AI Agents Against Prompt Injection Attacks | 2025 | 代理注入防御 | 防御: 提出了多层防御框架,包括:1) 基于Embedding的异常检测内容过滤;2) 分层系统提示护栏(Guardrails);3) 多阶段响应验证机制。[5][6] |
| Backdoored Retrievers for Prompt Injection Attacks | 2024 | 检索器后门 | 攻击: 不直接攻击LLM,而是通过微调检索器(Dense Retriever)植入后门。当Query包含特定触发词时,检索器会强制检索出含有恶意指令的文档(如钓鱼链接)。 | |
| PR-Attack: Coordinated Prompt-RAG Attacks | 2025 | 联合攻击 | 攻击: 结合了Prompt注入和检索投毒的联合攻击方法,利用双层优化(Bilevel Optimization)生成不仅能误导检索器还能在生成阶段触发LLM越狱的对抗样本。 | |
| 隐私泄露<br>(Privacy Leakage) | The Good and The Bad: Exploring Privacy Issues in RAG | 2024 | 隐私泄露评估 | 分析: 揭示了RAG的双刃剑效应:一方面RAG可能泄露私有检索数据库中的敏感信息(如PII);另一方面,RAG反而能掩盖LLM训练数据中的隐私,减少训练数据的记忆泄露。[7][8] |
| Privacy-Aware Decoding (PAD) | 2025 | 推理时防御 | 防御: 一种轻量级的解码策略。在Token生成阶段,动态计算隐私敏感度,并向Logits注入校准的高斯噪声,在不重新训练模型的情况下实现差分隐私保护。[9] | |
| DEAL: High-Efficacy Privacy Attack via LLM Optimizer | 2025 | 提取攻击 | 攻击: 使用一个LLM作为优化器,自动迭代生成攻击后缀(Attack Suffix),能以极高成功率诱导RAG系统输出检索文档中的完整原文或特定隐私信息。 | |
| SAGE: Mitigating Privacy Issues via Pure Synthetic Data | 2024 | 数据合成防御 | 防御: 不直接使用私有数据构建索引,而是通过两阶段生成(属性提取+代理细化)创建“纯合成数据”作为知识库,既保留了检索效用,又在物理上隔离了真实隐私数据。 |
关键技术趋势解读
-
从“文本投毒”转向“结构化投毒”:
早期的攻击多是向文档库塞入乱码或误导性文本,2025年的Paper(如针对KG-RAG的研究)开始关注知识图谱结构和嵌入空间的隐蔽投毒,这种攻击更难被传统的关键词过滤发现。 -
检索器(Retriever)成为新靶点:
以前的安全研究多关注LLM本身(生成阶段),现在的攻击者发现攻破检索器效率更高。通过向检索器植入后门(Backdoored Retrievers),攻击者可以控制RAG系统“看到”什么,从而间接控制生成结果。 -
防御向“推理时”和“数据合成”转移:
-
推理时防御(Inference-time Defense): 像PAD这样的技术不需要昂贵的模型重训练,直接在生成过程中进行隐私保护,更符合工业界落地需求。
-
合成数据(Synthetic Data): 为了彻底解决隐私合规问题,直接用高质量的合成数据替代原始敏感数据构建索引,正在成为金融和医疗RAG系统的新趋势。
-
基于最近1-2年(2024-2025年)内关于RAG(Retrieval-Augmented Generation)安全(包括安全性、隐私和鲁棒性等方面)前沿技术的论文汇总。我从学术来源(如arXiv)中筛选了10篇代表性论文,这些论文聚焦于威胁模型、攻击向量、防御机制和评估框架等前沿领域。表格包括论文标题、发布年份、关键技术/贡献要点,以及简要描述。数据来源于可靠的学术搜索结果。
| 论文标题 | 发布年份 | 关键技术/贡献 | 简要描述 |
|---|---|---|---|
| RAG Security and Privacy: Formalizing the Threat Model and Attack | 2025 | 威胁模型形式化、攻击向量分析 | 提出RAG系统的威胁模型,结合LLM与外部检索,探讨隐私泄露和攻击风险。 |
| RAG Makes Guardrails Unsafe? Investigating Robustness of Guardrails in Retrieval-Augmented Generation | 2025 | 护栏鲁棒性测试、RAG对安全影响评估 | 研究RAG如何削弱LLM护栏的安全性,并提出风险增加的实证分析。 |
| RAG Safety: Exploring Knowledge Poisoning Attacks to Retrieval-Augmented Knowledge Graphs | 2025 | 知识图谱中毒攻击、KG-RAG安全调查 | 系统调查KG-RAG的数据中毒攻击,探讨安全漏洞和防御策略。 |
| Provably Secure Retrieval-Augmented Generation | 2025 | 可证明安全机制、数据泄露和中毒防御 | 开发可证明安全的RAG系统,针对系统性风险提出防御框架。 |
| Securing RAG: A Risk Assessment and Mitigation Framework | 2025 | 风险评估框架、管道漏洞缓解 | 审查RAG管道漏洞,从数据预处理到存储,提供缓解框架。 |
| SafeRAG: Benchmarking Security in Retrieval-Augmented Generation | 2025 | 检索与生成安全基准、综合评估 | 引入SafeRAG基准,评估RAG的检索和生成安全,提供全面视角。 |
| Exploring Privacy Issues in Retrieval-Augmented Generation (RAG) | 2024 | 隐私保护技术、专有数据集成 | 探讨RAG中隐私问题,强调数据隐私在LLM增强中的作用。 |
| BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation Systems | 2024 | 漏洞识别框架、检索与生成攻击 | 引入BadRAG框架,针对RAG检索和生成阶段的安全漏洞。 |
| HijackRAG: Hijacking Attacks against Retrieval-Augmented Large Language Models | 2024 | 检索提示劫持攻击、操纵机制 | 揭示HijackRAG漏洞,允许攻击者操纵RAG检索机制。 |
| Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) through Synthetic Data | 2024 | 合成数据隐私缓解、安全关键领域应用 | 使用合成数据减轻RAG隐私风险,针对安全关键系统。 |
根据2024–2025年关于RAG(检索增强生成)安全方向的前沿研究,我为你汇总了以下技术论文表格。这些工作涵盖了隐私保护、对抗攻击、安全评估基准、干扰攻击(jamming)以及面向安全运营的RAG应用等多个维度,与你此前关注的端侧数据隐私(如通过AICC加密)和安全检测背景高度相关。
|
论文名称
|
作者/出处
|
年份
|
核心技术/方法
|
安全问题类型
|
备注
|
|---|---|---|---|---|---|
|
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation
|
X. Liang et al.
|
2025
|
构建了针对RAG系统的安全评估基准,定义四类攻击任务(如silver noise、inter-context injection等)
|
数据注入攻击、组件漏洞
|
首次系统评估RAG检索与生成模块的安全性 1014
|
|
RAG-Thief: Scalable Extraction of Private Data from RAG Applications
|
B. Wang et al.
|
2024
|
基于智能体的自动化隐私攻击方法,可从私有知识库中提取>70%敏感信息
|
隐私泄露、数据提取
|
针对RAG部署中私有数据暴露风险 2125
|
|
Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents
|
A. Shafran et al. (USENIX Security '25)
|
2025
|
利用“阻塞文档”(blocker documents)注入干扰内容,引发RAG系统拒绝服务或输出错误
|
拒绝服务、内容污染
|
针对开放内容源场景的新型DoS攻击 3039
|
|
Privacy-Preserving Retrieval-Augmented Generation with Differential Privacy
|
T. Koga et al.
|
2024
|
将差分隐私(DP)引入RAG检索与生成流程,提供形式化隐私保障
|
数据隐私、输出泄露
|
适合处理个人敏感数据的RAG隐私方案 5758
|
|
Private-RAG: Answering Multiple Queries with LLMs while Preserving Privacy
|
T. Koga et al.
|
2025
|
扩展DP-RAG至多轮查询场景,解决单次查询模型不满足实际需求的问题
|
多轮查询隐私累积泄露
|
更贴近真实部署场景 56
|
|
CyberRAG: An Agentic RAG Cyber Attack Classification and Reporting Tool
|
F. Blefari et al.
|
2025
|
基于多智能体RAG框架,实现攻击分类、自然语言解释与结构化报告生成
|
安全运营、攻击识别
|
可与IDS集成,适用于你关注的网络安全检测场景 4247
|
补充说明:
- 与你兴趣的相关性:
- 若你希望在端侧RAG中实现“仅用户可读”的加密方案(如AICC),差分隐私类工作(如 Private-RAG)虽提供形式化隐私保障,但不提供“密文访问控制”,可作为辅助手段。
- RAG-Thief 和 SafeRAG 揭示了RAG系统在私有知识库泄露和组件脆弱性方面的风险,对设计安全端侧RAG架构具有警示意义。
- CyberRAG 与你在网络安全、恶意程序识别等方向的研究高度契合,可作为安全智能体设计参考。
RAG安全技术洞察总结(2024–2025)
RAG作为连接大语言模型(LLM)与外部知识的关键桥梁,在提升生成准确性的同时,也引入了全新的安全攻击面。近两年的研究表明,RAG安全问题已从“生成侧单点防御”演进为覆盖数据源、检索器、生成器、用户交互全链路的系统性挑战。主要可归纳为三大趋势与一个核心矛盾:
1. 攻击重心从“生成模型”转向“检索管道”
早期安全研究集中于LLM的提示注入或越狱,而当前主流攻击已前移至RAG的检索环节:
- 检索器成为高价值攻击目标:如 Backdoored Retrievers(2024)展示了仅微调检索器即可植入后门,使系统在特定Query触发下返回恶意文档;HijackRAG 进一步揭示了对检索提示的劫持机制。
- 结构化投毒兴起:相比文本垃圾投毒,KG-RAG Poisoning(2025)通过扰动知识图谱三元组,隐蔽破坏推理链,对金融、医疗等结构化知识场景构成高危威胁。
- 干扰型攻击(Jamming)出现:Machine Against the RAG 提出“阻塞文档”攻击,可引发服务降级或拒绝服务,凸显RAG在开放知识源下的脆弱性。
启示:端侧RAG部署时,不能仅依赖LLM护栏;需对检索器本身进行完整性校验、输入过滤与运行时监控。
2. 隐私保护从“训练数据隔离”转向“全生命周期防护”
RAG的隐私风险具有双重性:既可能泄露私有知识库(如客户数据),也可能意外暴露LLM内部记忆。最新研究提出多层次防护策略:
- 推理时轻量防御:如 Privacy-Aware Decoding (PAD) 在生成阶段注入校准噪声,实现无需重训练的差分隐私,适合资源受限的端侧设备。
- 数据物理隔离:SAGE 和 Synthetic Data Mitigation 提出用高质量合成数据替代真实敏感数据构建索引,从根本上切断隐私泄露路径——这对医疗、金融等强合规场景尤为重要。
- 多轮查询隐私累积建模:Private-RAG 首次将DP机制扩展至多轮交互,直面真实应用场景中的隐私衰减问题。
与你工作的关联:你关注的“AICC端侧加密”属于“访问控制型隐私”,与差分隐私(DP)和合成数据形成互补。在便携式AI硬件中,可考虑“合成数据索引 + AICC密文存储 + PAD推理保护”的三层架构,兼顾性能、合规与安全。
3. 安全评估与防御走向系统化、基准化
社区正快速构建RAG专属安全基础设施:
- 标准化基准出现:SafeRAG(2025)首次定义RAG安全评估四象限(如上下文注入、噪声干扰等),为防御方案提供可比性度量。
- 端到端风险框架建立:如 Securing RAG(2025)系统梳理从数据预处理、索引构建到检索生成的全管道漏洞,并提出缓解checklist。
- 安全-效用权衡显性化:多篇论文指出,过度防御(如强DP噪声)会显著降低检索相关性——未来方向需在“安全强度”与“任务性能”间动态平衡。
核心矛盾:RAG的“开放性”与“可控性”难以兼得
RAG的本质优势在于动态接入外部知识,但这也使其成为安全闭环中最难控的一环。攻击者无需破解模型,只需污染或操控“看到的信息”,即可间接控制输出。真正的安全RAG,必须同时保证“所见即所信”与“所答即所允”。
面向你技术方向的建议
结合你在端侧AI硬件、网络安全检测、AICC加密等方面的实践:
- 在便携设备RAG方案中,优先采用合成数据构建本地索引,避免原始敏感数据驻留;
- 检索器部署时加入轻量信任机制(如TrustRAG的可信评分),防止投毒文档进入上下文;
- 对接安全运营场景时,可参考 CyberRAG 构建基于RAG的攻击解释与报告生成智能体,提升SOC效率;
- 探索AICC与推理时防御(如PAD)的协同,实现“数据静态加密 + 推理动态扰动”的纵深防御。
RAG安全已进入“深水区”——不再是LLM的附属问题,而是一个独立的、需专门设计的安全子系统。未来1–2年,随着RAG在企业级和端侧场景的普及,围绕可验证检索、零知识RAG、硬件级隐私计算的创新将成为关键突破口。

浙公网安备 33010602011771号