最近2年前沿的LLM推理安全前沿技术研究
以下内容由李智华整理,主要来自deep reasearch的学术研究成果汇总。
以下是最近1–2年(2024–2025)关于大语言模型(LLM)推理阶段安全防护的前沿技术论文汇总。涵盖方向包括**运行时安全(如可信执行环境TEE)、机密计算(Confidential Computing)、缓存侧信道防护(如KV-Cache安全)**等。所有信息基于公开的学术预印本、会议论文和期刊文章整理。
LLM 推理安全防护前沿技术汇总表(2024–2025)
|
技术方向
|
论文标题
|
核心贡献
|
防护机制 / 技术要点
|
年份
|
引用编号
|
|---|---|---|---|---|---|
|
机密计算框架(异构平台)
|
Heterogeneous Confidential Computing System for Large Language Models
|
针对CPU/GPU/NPU异构环境下LLM推理的安全需求,提出统一的机密计算系统架构
|
利用硬件TEE(如Intel SGX、AMD SEV、NPU可信执行)保护模型与数据运行时机密性
|
2025
|
1, 15
|
|
机密提示(Confidential Prompting)
|
Confidential Prompting: Privacy-preserving LLM Inference
|
首次提出“机密提示”范式:在不受信任的云LLM上保护用户输入隐私
|
借助TEE或加密协议实现用户prompt与模型间的安全交互,阻止云服务商窥探
|
2025
|
2, 14, 16, 18
|
|
KV-Cache 侧信道攻击与防护
|
Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference
|
揭示KV-Cache中存在用户输入泄露风险,提出三种攻击路径
|
分析缓存共享导致的token值与位置信息泄露
|
2025
|
6
|
|
|
Selective KV-Cache Sharing to Mitigate Timing Side-Channels
|
提出SafeKV机制,限制跨用户KV-Cache共享
|
采用用户边界感知的缓存分区策略,缓解94%–97%的定时侧信道风险
|
2025
|
10, 22, 28, 30
|
|
|
Cache Partitioning for Mitigating Timing Side-Channel Attacks
|
基于用户身份对KV-Cache进行分区隔离
|
防止多租户共享缓存导致的prompt推断攻击
|
2024–2025
|
21, 23
|
|
硬件缓存侧信道
|
Unveiling Hardware Cache Side-Channels in Local LLM Inference
|
发现本地LLM推理中CPU缓存可泄露token值与位置
|
攻击者可利用缓存访问模式重构敏感输入
|
2025
|
5, 29
|
|
嵌入层内存侧信道防护
|
Efficient Memory Side-Channel Protection for Embedding Generation
|
首个针对嵌入层(embedding)的侧信道防护研究
|
结合模型架构修改与oblivious memory访问,保护token嵌入生成过程
|
2025
|
4
|
|
分布式安全推理架构
|
SPADA: Secure, Performant, and Distributed LLM Inference
|
构建兼顾安全、性能与可扩展性的分布式LLM推理系统
|
集成TEE、加密通信与安全调度机制
|
2024–2025
|
9
|
|
NPU/GPU机密计算优化
|
Ascend-CC: Confidential Computing on Heterogeneous NPU for Generative AI
|
针对华为昇腾NPU等AI加速器设计机密计算支持
|
优化生成式AI负载在NPU上的安全推理性能
|
2024
|
11
|
|
|
Performance of Confidential Computing GPUs
|
评估机密GPU(如NVIDIA Confidential Computing)在LLM推理中的延迟与吞吐表现
|
分析不同流量模式下性能开销
|
2025
|
13
|
|
轻量化模型与机密计算结合
|
Distilled Large Language Model in Confidential Computing
|
探索知识蒸馏模型在资源受限TEE环境中的部署优势
|
蒸馏模型降低内存与计算需求,提升机密推理效率
|
2025
|
19
|
关键趋势总结
- KV-Cache 成为新攻击面:多篇论文(5, 6, 10, 22, 28)指出,为提升推理效率引入的KV-Cache共享机制会引发严重隐私泄露,需通过缓存分区、用户隔离或选择性共享缓解。
- 异构机密计算平台兴起:面对GPU/NPU加速推理需求,研究开始从纯CPU TEE(如SGX)扩展到异构TEE架构(如Ascend-CC 11、ccAI 8)。
- 端侧与云侧协同防护:如“Confidential Prompting”范式强调用户端加密或TEE封装Prompt,仅在安全环境中解密后输入模型,防止云侧窥探 2。
- 性能与安全的权衡:几乎所有方案都面临安全开销问题,当前研究尝试通过**模型蒸馏19、缓存优化22、调度策略11**等手段降低开销。
搜索了最近1-2年内(2024-2025年,主要基于ArXiv预印本日期)的相关论文,焦点在前沿LLM推理安全防护技术,包括运行时保护、机密计算、缓存防护(如KV-cache隐私风险和侧信道攻击防护)等方面。这些论文主要来自ArXiv,涵盖攻击分析和防护机制。
我汇总了一个技术表格,列出论文标题、年份、作者、关键技术/方法,以及主要焦点领域。表格基于搜索结果和论文细节提取,如果论文中提到防护机制,我已突出。所有信息来源于可靠学术来源。
| 论文标题 | 年份 | 作者 | 关键技术/方法 | 主要焦点领域 |
|---|---|---|---|---|
| Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference | 2025 | Zhifan Luo, Shuo Shao, Su Zhang 等 | KV-Cloak(基于可逆矩阵混淆和算子融合的防护);反转攻击、碰撞攻击、注入攻击分析 | KV-cache隐私泄露防护;运行时缓存保护 |
| Confidential Prompting: Privacy-preserving LLM Inference on Cloud | 2024 | Caihua Li, In Gim, Lin Zhong | Secure Partitioned Decoding (SPD);机密虚拟机 (CVM);进程隔离和网络控制;证明机制 | 云端机密计算;用户提示隐私保护;运行时隔离 |
| TZ-LLM: Protecting On-Device Large Language Models with Arm TrustZone | 2025 | Xunjie Wang, Jiacheng Shi, Zihan Zhao 等 | 流水线恢复(pipelined restoration);协驱动设计(co-driver for NPU);安全内存扩展(CMA 和 TZASC) | 设备端TrustZone机密计算;NPU时分复用;运行时参数缓存防护 |
| Confidential Computing for Cloud Security: Exploring Hardware based Encryption Using Trusted Execution Environments | 2025 | Dhruv Deepak Agarwal, Aswani Kumar Cherukuri | Trusted Execution Environments (TEEs);Intel SGX 和 ARM TrustZone;硬件加密和隔离 | 云端机密计算;侧信道攻击防护(如缓存定时攻击) |
| A First Look At Efficient And Secure On-Device LLM Inference Against KV Leakage | 2024 | Huan Yang, Deyu Zhang, Yudong Zhao 等 | KV-Shield(权重矩阵置换和逆置换);TEE内执行;全同态加密 (FHE) 比较 | 设备端KV泄露防护;运行时缓存保护;侧信道攻击缓解 |
| Unveiling Timing Side Channels in LLM Serving Systems | 2025 | (从搜索结果,未提取作者) | 定时侧信道攻击策略;共享KV-cache机制利用 | 服务系统定时侧信道攻击分析;潜在防护如批处理优化 |
| I Know What You Said: Unveiling Hardware Cache Side-Channels in LLM Inference | 2025 | (从搜索结果,未提取作者) | 硬件缓存侧信道漏洞;令牌值和位置泄露 | 本地LLM缓存侧信道攻击;运行时防护建议如噪声注入 |
| MoEcho: Exploiting Side-Channel Attacks to Compromise User Privacy in Mobile LLM Inference | 2025 | (从搜索结果,未提取作者) | 架构侧信道(如Cache Occupancy、DRAM Row Buffer);四个新型攻击 | 移动端侧信道攻击;缓存和DRAM防护机制探讨 |
这些论文代表了当前前沿趋势:从KV-cache的具体防护(如混淆和置换)到更广泛的机密计算框架(如TEE和CVM)。
根据您对最近1-2年(2023-2025)LLM推理安全防护前沿技术的调研需求,我为您梳理了运行时安全(Runtime Security)、**机密计算(Confidential Computing)和侧信道/Cache防护(Side-Channel/Cache Protection)**三个主要方向的最新Paper和技术成果,并汇总成以下技术表格。
核心技术汇总表 (2023-2025)
| 技术方向 | 论文/项目名称 | 年份 | 核心问题/攻击点 | 关键技术/防护方案 | 亮点与局限性 |
| 侧信道与Cache防护 | SafeKV (OpenReview) | 2024 | KV Cache共享攻击:多租户场景下,通过共享KV Cache的命中时间差推断其他用户的私有Prompt。[1][2] | 选择性共享与隔离:引入Chunk Guard进行隐私分类,非敏感数据共享Cache,敏感数据隔离。[2] | 亮点:在性能(Cache重用率)和隐私之间取得平衡,解决了vLLM等框架的原生安全缺陷。 |
| 侧信道与Cache防护 | PromptPeek (NDSS) | 2025 | 时序侧信道:利用推理延迟差异,反推受害者Prompt内容。[3] | 攻击研究:揭示了现有推理服务框架(如vLLM, SGLang)在多租户下的重大隐私漏洞。 | 亮点:证明了仅凭API响应时间即可恢复用户输入,强调了物理隔离或算法混淆的必要性。 |
| 侧信道与Cache防护 | KV-Cloak (ArXiv) | 2024 | KV Cache数据泄露:物理接触或内存快照可直接恢复KV Cache中的语义信息。 | 轻量级混淆:使用可逆矩阵混淆+算子融合技术,使存储在显存中的KV Cache不可读。 | 亮点:性能开销极低,不影响模型准确率,适合云端部署防止内存Dump攻击。 |
| 侧信道与Cache防护 | Spill The Beans (ArXiv) | 2024 | CPU Cache侧信道:通过Flush+Reload攻击监测Embedding层的访问模式来恢复Token。 | 攻击研究:证明了即便LLM运行在GPU上,CPU端的预处理/Embedding查表仍可能泄露Token信息。 | 局限:攻击依赖于攻击者与受害者共用物理硬件(Co-location)。 |
| 侧信道与Cache防护 | LLM Side-Channel (Token-Length) | 2024 | 加密流量分析:HTTPS加密流量中的包大小/长度特征泄露Token序列。 | 微调攻击模型:训练一个专门的LLM,将加密流量的元数据(长度序列)“翻译”回原文。 | 亮点:针对ChatGPT/Copilot等商用API有效,无需接触服务器内部。 |
| 机密计算 (TEE) | Confidential LLM Inference (ArXiv) | 2024 | 数据隐私:在不可信云环境(Untrusted Cloud)中保护模型权重和用户输入。 | 异构TEE性能评估:对比了Intel TDX (CPU) 与 NVIDIA H100 (GPU TEE) 的推理性能。 | 结论:H100 GPU TEE性能损耗极低 (<5%),开始具备实用性;CPU TEE适合小模型或低吞吐场景。 |
| 机密计算 (TEE) | CC on NVIDIA Hopper | 2024 | PCIe瓶颈:TEE模式下CPU与GPU之间的加密通信导致的数据传输开销。 | 性能基准测试:详细分析了开启TEE后,Hopper架构GPU在不同模型尺寸、Token长度下的吞吐量变化。 | 亮点:指出计算不再是瓶颈,PCIe数据传输加密是主要开销来源,大Batch下开销被摊薄。 |
| 运行时防护 | GuardFormer (NeurIPS) | 2024 | Jailbreak/有害输出:通用模型难以兼顾安全性与指令遵循。 | 专用Guardrail模型:预训练专门的Guardrail模型,在Input/Output阶段进行拦截和修正。 | 亮点:比通用的Llama Guard更轻量、针对性更强,支持多任务安全对齐。 |
| 运行时防护 | Llama Guard 3 (Meta) | 2024 | 通用内容安全:需要一个标准化的输入输出过滤器。 | 分类与防御:基于Llama-3微调的分类器,定义了详细的MLCommons安全分类标准(暴力、仇恨等)。 | 亮点:行业标准级工具,支持自定义分类,是目前最主流的运行时防护底座。 |
| 运行时防护 | WildGuard (ArXiv) | 2024 | 高级越狱攻击:复杂的逻辑越狱(如DeepInception)难以被简单规则检测。 | 一站式审核工具:集成越狱检测、拒答判断和有害内容识别,专注于对抗复杂Prompt注入。 | 亮点:在检测隐蔽性攻击(Stealthy Attacks)方面优于传统分类器。 |
| 运行时防护 | SmoothLLM (ICLR) | 2024 | 对抗样本攻击:通过添加随机字符扰动Prompt绕过安全检查。 | 随机平滑 (Randomized Smoothing):对输入Prompt进行多次随机扰动采样,投票决定是否拒绝回答。 | 亮点:理论上可证明的防御能力,显著提高了对抗基于梯度的Prompt攻击的鲁棒性。 |
技术趋势解读 (Key Insights)
1. 侧信道攻击的重心转移:从物理层到KV Cache
早期的侧信道攻击主要关注电源、电磁辐射,但2024年的研究(如PromptPeek和KV-Cloak)集中爆发在KV Cache上。
-
背景:为了提升推理速度,vLLM等框架在多用户间共享KV Cache(System Prompt或相同前缀)。
-
风险:攻击者可以通过构造特定的Prompt,根据首字生成时间(TTFT)的微小差异,判断Cache是否命中,从而推断其他用户的私有输入内容。
-
防御:SafeKV等方案提出了“隐私感知的Cache管理”,即在性能(共享)和隐私(隔离)之间做动态切分,是目前最前沿的防御思路。
2. 机密计算(TEE)走向实用化
过去TEE(如Intel SGX)因内存限制和性能极差,无法运行LLM。但随着NVIDIA H100 TEE和Intel TDX的成熟:
-
GPU TEE时代到来:2024年的Benchmark显示,在H100上开启TEE保护,推理性能损耗已降至 5-8% 左右。这使得金融、医疗等高敏感领域的“机密推理”(Confidential Inference)成为工程上可行的方案。
-
关键挑战:目前的瓶颈主要在于CPU与GPU之间的PCIe加密通信开销,而非GPU计算本身。
3. 运行时防护从“规则匹配”进化为“小模型对抗”
传统的关键词过滤已失效,现在的运行时防护(Guardrails)趋势是部署一个轻量级的专用小模型(如GuardFormer, Llama Guard)作为“看门人”。
-
双流架构:主模型(如GPT-4)负责生成,小模型(如7B或更小)负责毫秒级的输入意图识别和输出审计。
-
防御重点:不仅是防脏话,重点转向防御逻辑越狱(Jailbreak,如“扮演奶奶讲Windows激活码”)和Prompt注入。
建议关注的会议/机构
-
USENIX Security / NDSS:关注侧信道攻击(KV Cache, Timing Attack)的最新Paper。
-
NeurIPS / ICLR:关注运行时防护(Alignment, Guardrails)和对抗攻击防御(Adversarial Defense)的算法。
-
NVIDIA / Intel Whitepapers:关注硬件TEE在推理性能优化上的最新数据。
综合多轮深度调研结果(涵盖2024–2025年arXiv、NDSS、NeurIPS、行业白皮书等来源),LLM推理阶段的安全防护已从传统“模型输出过滤”转向全栈纵深防御,尤其聚焦于运行时机密性、缓存侧信道、异构TEE部署三大核心战场。以下是高度凝练的技术洞察总结:
LLM 推理安全防护前沿技术洞察(2024–2025)
1. KV-Cache 成为新型高危攻击面
- 攻击本质:为提升吞吐而引入的多租户KV-Cache共享机制(如vLLM、SGLang)会泄露用户Prompt的语义、长度甚至具体Token。
- 代表性攻击:
- PromptPeek(NDSS 2025):通过首字生成延迟(TTFT)差异推断其他用户输入。
- Shadow in the Cache(ArXiv 2025):利用内存快照或GPU侧信道直接恢复KV内容。
- 前沿防御:
- SafeKV:按隐私等级动态分区Cache(敏感隔离 / 非敏感共享)。
- KV-Cloak:用可逆矩阵混淆KV值 + 算子融合,使显存中KV不可读但计算无损。
- KV-Shield:在TEE内执行权重置换,防止物理内存Dump。
✅ 趋势:KV-Cache 安全已从“性能优化附属问题”升级为“独立安全模块”,需在推理引擎层原生集成隐私感知调度。
2. 机密计算(Confidential Computing)进入工程实用阶段
- 硬件突破:
- NVIDIA H100 GPU TEE(Confidential Computing):推理性能损耗降至 <5%–8%,首次支持70B级模型安全推理。
- Ascend-CC(华为昇腾)、Intel TDX:扩展TEE至NPU/多核CPU,支持异构AI负载。
- 关键瓶颈:
- PCIe加密通信开销 成为主要性能瓶颈(非GPU计算本身),尤其在小Batch/低吞吐场景。
- CPU预处理(如Embedding查表)仍暴露于缓存侧信道(如Spill The Beans攻击)。
- 新范式:
- Confidential Prompting:用户端加密Prompt,在CVM/TEE内解密后输入模型,实现“云不可见”。
- Distilled LLM in TEE:用蒸馏小模型降低TEE内存压力,提升端侧部署可行性(如TZ-LLM on Arm TrustZone)。
✅ 趋势:机密推理从“学术演示”走向金融、医疗等高敏行业落地,但需硬件-系统-模型协同优化。
3. 运行时防护(Runtime Guardrails)演进为“智能对抗”
- 超越关键词过滤:传统规则对越狱攻击(如“奶奶讲激活码”)完全失效。
- 新一代防护架构:
- 专用小模型守卫:Llama Guard 3、GuardFormer、WildGuard 等作为轻量“安全Agent”,在输入/输出端做语义级审计。
- 对抗鲁棒性增强:SmoothLLM 采用随机平滑(Randomized Smoothing),对扰动Prompt进行投票拒绝,具备理论可证明防御能力。
- 新攻击面:加密流量分析(如HTTPS包长度)可反推Token序列,需在传输层加入填充/混淆。
✅ 趋势:运行时安全 = “安全小模型 + 对抗训练 + 标准化分类”,形成独立于主模型的可信守卫层。
4. 端侧 vs 云侧:安全责任边界重构
- 端侧(On-device):
- 利用TrustZone(如TZ-LLM)或NPU TEE保护本地推理,应对硬件侧信道(Cache、DRAM Row Buffer)。
- 重点防护嵌入层、KV缓存等内存敏感操作。
- 云侧(Cloud):
- 依赖CVM(Confidential VM)、GPU TEE实现多租户隔离。
- 风险集中于共享资源调度(KV Cache、内存带宽、PCIe)引发的跨租户泄露。
✅ 趋势:端云协同成为新方向——用户敏感Prompt在端侧加密/TEE封装,仅传递安全Token至云端推理。
未来研究与工程重点建议
|
方向
|
关键挑战
|
机会点
|
|---|---|---|
|
KV-Cache 安全
|
性能 vs 隐私权衡
|
开发可证明安全的Cache调度器(如形式化验证隔离策略)
|
|
异构TEE优化
|
PCIe加密瓶颈、NPU TEE生态不成熟
|
构建统一机密AI框架(如CC-MLIR)支持跨平台部署
|
|
智能Guardrails
|
越狱攻击不断演化
|
将Guard模型纳入RLHF对齐流程,实现动态更新
|
|
标准与测评
|
缺乏统一侧信道安全基准
|
推动MLCommons等组织制定LLM推理安全测试套件
|
该领域正经历从“被动补漏”到“主动设计安全”的范式转变。真正的安全不再仅靠模型本身,而是由硬件可信根、系统调度策略、缓存管理机制与运行时守卫共同构成。

浙公网安备 33010602011771号