最近2年前沿的LLM推理安全前沿技术研究

以下内容由李智华整理,主要来自deep reasearch的学术研究成果汇总。

 

以下是最近1–2年(2024–2025)关于大语言模型(LLM)推理阶段安全防护的前沿技术论文汇总。涵盖方向包括**运行时安全(如可信执行环境TEE)、机密计算(Confidential Computing)、缓存侧信道防护(如KV-Cache安全)**等。所有信息基于公开的学术预印本、会议论文和期刊文章整理。

 

 

LLM 推理安全防护前沿技术汇总表(2024–2025)

 
技术方向
论文标题
核心贡献
防护机制 / 技术要点
年份
引用编号
机密计算框架(异构平台)
Heterogeneous Confidential Computing System for Large Language Models
针对CPU/GPU/NPU异构环境下LLM推理的安全需求,提出统一的机密计算系统架构
利用硬件TEE(如Intel SGX、AMD SEV、NPU可信执行)保护模型与数据运行时机密性
2025
1, 15
机密提示(Confidential Prompting)
Confidential Prompting: Privacy-preserving LLM Inference
首次提出“机密提示”范式:在不受信任的云LLM上保护用户输入隐私
借助TEE或加密协议实现用户prompt与模型间的安全交互,阻止云服务商窥探
2025
2, 14, 16, 18
KV-Cache 侧信道攻击与防护
Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference
揭示KV-Cache中存在用户输入泄露风险,提出三种攻击路径
分析缓存共享导致的token值与位置信息泄露
2025
6
 
Selective KV-Cache Sharing to Mitigate Timing Side-Channels
提出SafeKV机制,限制跨用户KV-Cache共享
采用用户边界感知的缓存分区策略,缓解94%–97%的定时侧信道风险
2025
10, 22, 28, 30
 
Cache Partitioning for Mitigating Timing Side-Channel Attacks
基于用户身份对KV-Cache进行分区隔离
防止多租户共享缓存导致的prompt推断攻击
2024–2025
21, 23
硬件缓存侧信道
Unveiling Hardware Cache Side-Channels in Local LLM Inference
发现本地LLM推理中CPU缓存可泄露token值与位置
攻击者可利用缓存访问模式重构敏感输入
2025
5, 29
嵌入层内存侧信道防护
Efficient Memory Side-Channel Protection for Embedding Generation
首个针对嵌入层(embedding)的侧信道防护研究
结合模型架构修改与oblivious memory访问,保护token嵌入生成过程
2025
4
分布式安全推理架构
SPADA: Secure, Performant, and Distributed LLM Inference
构建兼顾安全、性能与可扩展性的分布式LLM推理系统
集成TEE、加密通信与安全调度机制
2024–2025
9
NPU/GPU机密计算优化
Ascend-CC: Confidential Computing on Heterogeneous NPU for Generative AI
针对华为昇腾NPU等AI加速器设计机密计算支持
优化生成式AI负载在NPU上的安全推理性能
2024
11
 
Performance of Confidential Computing GPUs
评估机密GPU(如NVIDIA Confidential Computing)在LLM推理中的延迟与吞吐表现
分析不同流量模式下性能开销
2025
13
轻量化模型与机密计算结合
Distilled Large Language Model in Confidential Computing
探索知识蒸馏模型在资源受限TEE环境中的部署优势
蒸馏模型降低内存与计算需求,提升机密推理效率
2025
19

 

关键趋势总结

  1. KV-Cache 成为新攻击面:多篇论文(5, 6, 10, 22, 28)指出,为提升推理效率引入的KV-Cache共享机制会引发严重隐私泄露,需通过缓存分区、用户隔离或选择性共享缓解。
  2. 异构机密计算平台兴起:面对GPU/NPU加速推理需求,研究开始从纯CPU TEE(如SGX)扩展到异构TEE架构(如Ascend-CC 11、ccAI 8)。
  3. 端侧与云侧协同防护:如“Confidential Prompting”范式强调用户端加密或TEE封装Prompt,仅在安全环境中解密后输入模型,防止云侧窥探 2。
  4. 性能与安全的权衡:几乎所有方案都面临安全开销问题,当前研究尝试通过**模型蒸馏19、缓存优化22、调度策略11**等手段降低开销。

 

 

搜索了最近1-2年内(2024-2025年,主要基于ArXiv预印本日期)的相关论文,焦点在前沿LLM推理安全防护技术,包括运行时保护、机密计算、缓存防护(如KV-cache隐私风险和侧信道攻击防护)等方面。这些论文主要来自ArXiv,涵盖攻击分析和防护机制。

我汇总了一个技术表格,列出论文标题、年份、作者、关键技术/方法,以及主要焦点领域。表格基于搜索结果和论文细节提取,如果论文中提到防护机制,我已突出。所有信息来源于可靠学术来源。

 
 
论文标题年份作者关键技术/方法主要焦点领域
Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference 2025 Zhifan Luo, Shuo Shao, Su Zhang 等 KV-Cloak(基于可逆矩阵混淆和算子融合的防护);反转攻击、碰撞攻击、注入攻击分析 KV-cache隐私泄露防护;运行时缓存保护
Confidential Prompting: Privacy-preserving LLM Inference on Cloud 2024 Caihua Li, In Gim, Lin Zhong Secure Partitioned Decoding (SPD);机密虚拟机 (CVM);进程隔离和网络控制;证明机制 云端机密计算;用户提示隐私保护;运行时隔离
TZ-LLM: Protecting On-Device Large Language Models with Arm TrustZone 2025 Xunjie Wang, Jiacheng Shi, Zihan Zhao 等 流水线恢复(pipelined restoration);协驱动设计(co-driver for NPU);安全内存扩展(CMA 和 TZASC) 设备端TrustZone机密计算;NPU时分复用;运行时参数缓存防护
Confidential Computing for Cloud Security: Exploring Hardware based Encryption Using Trusted Execution Environments 2025 Dhruv Deepak Agarwal, Aswani Kumar Cherukuri Trusted Execution Environments (TEEs);Intel SGX 和 ARM TrustZone;硬件加密和隔离 云端机密计算;侧信道攻击防护(如缓存定时攻击)
A First Look At Efficient And Secure On-Device LLM Inference Against KV Leakage 2024 Huan Yang, Deyu Zhang, Yudong Zhao 等 KV-Shield(权重矩阵置换和逆置换);TEE内执行;全同态加密 (FHE) 比较 设备端KV泄露防护;运行时缓存保护;侧信道攻击缓解
Unveiling Timing Side Channels in LLM Serving Systems 2025 (从搜索结果,未提取作者) 定时侧信道攻击策略;共享KV-cache机制利用 服务系统定时侧信道攻击分析;潜在防护如批处理优化
I Know What You Said: Unveiling Hardware Cache Side-Channels in LLM Inference 2025 (从搜索结果,未提取作者) 硬件缓存侧信道漏洞;令牌值和位置泄露 本地LLM缓存侧信道攻击;运行时防护建议如噪声注入
MoEcho: Exploiting Side-Channel Attacks to Compromise User Privacy in Mobile LLM Inference 2025 (从搜索结果,未提取作者) 架构侧信道(如Cache Occupancy、DRAM Row Buffer);四个新型攻击 移动端侧信道攻击;缓存和DRAM防护机制探讨

 

这些论文代表了当前前沿趋势:从KV-cache的具体防护(如混淆和置换)到更广泛的机密计算框架(如TEE和CVM)。 

 

 

根据您对最近1-2年(2023-2025)LLM推理安全防护前沿技术的调研需求,我为您梳理了运行时安全(Runtime Security)、**机密计算(Confidential Computing)侧信道/Cache防护(Side-Channel/Cache Protection)**三个主要方向的最新Paper和技术成果,并汇总成以下技术表格。

核心技术汇总表 (2023-2025)

技术方向 论文/项目名称 年份 核心问题/攻击点 关键技术/防护方案 亮点与局限性
侧信道与Cache防护 SafeKV (OpenReview) 2024 KV Cache共享攻击:多租户场景下,通过共享KV Cache的命中时间差推断其他用户的私有Prompt。[1][2] 选择性共享与隔离:引入Chunk Guard进行隐私分类,非敏感数据共享Cache,敏感数据隔离。[2] 亮点:在性能(Cache重用率)和隐私之间取得平衡,解决了vLLM等框架的原生安全缺陷。
侧信道与Cache防护 PromptPeek (NDSS) 2025 时序侧信道:利用推理延迟差异,反推受害者Prompt内容。[3] 攻击研究:揭示了现有推理服务框架(如vLLM, SGLang)在多租户下的重大隐私漏洞。 亮点:证明了仅凭API响应时间即可恢复用户输入,强调了物理隔离或算法混淆的必要性。
侧信道与Cache防护 KV-Cloak (ArXiv) 2024 KV Cache数据泄露:物理接触或内存快照可直接恢复KV Cache中的语义信息。 轻量级混淆:使用可逆矩阵混淆+算子融合技术,使存储在显存中的KV Cache不可读。 亮点:性能开销极低,不影响模型准确率,适合云端部署防止内存Dump攻击。
侧信道与Cache防护 Spill The Beans (ArXiv) 2024 CPU Cache侧信道:通过Flush+Reload攻击监测Embedding层的访问模式来恢复Token。 攻击研究:证明了即便LLM运行在GPU上,CPU端的预处理/Embedding查表仍可能泄露Token信息。 局限:攻击依赖于攻击者与受害者共用物理硬件(Co-location)。
侧信道与Cache防护 LLM Side-Channel (Token-Length) 2024 加密流量分析:HTTPS加密流量中的包大小/长度特征泄露Token序列。 微调攻击模型:训练一个专门的LLM,将加密流量的元数据(长度序列)“翻译”回原文。 亮点:针对ChatGPT/Copilot等商用API有效,无需接触服务器内部。
机密计算 (TEE) Confidential LLM Inference (ArXiv) 2024 数据隐私:在不可信云环境(Untrusted Cloud)中保护模型权重和用户输入。 异构TEE性能评估:对比了Intel TDX (CPU) 与 NVIDIA H100 (GPU TEE) 的推理性能。 结论:H100 GPU TEE性能损耗极低 (<5%),开始具备实用性;CPU TEE适合小模型或低吞吐场景。
机密计算 (TEE) CC on NVIDIA Hopper 2024 PCIe瓶颈:TEE模式下CPU与GPU之间的加密通信导致的数据传输开销。 性能基准测试:详细分析了开启TEE后,Hopper架构GPU在不同模型尺寸、Token长度下的吞吐量变化。 亮点:指出计算不再是瓶颈,PCIe数据传输加密是主要开销来源,大Batch下开销被摊薄。
运行时防护 GuardFormer (NeurIPS) 2024 Jailbreak/有害输出:通用模型难以兼顾安全性与指令遵循。 专用Guardrail模型:预训练专门的Guardrail模型,在Input/Output阶段进行拦截和修正。 亮点:比通用的Llama Guard更轻量、针对性更强,支持多任务安全对齐。
运行时防护 Llama Guard 3 (Meta) 2024 通用内容安全:需要一个标准化的输入输出过滤器。 分类与防御:基于Llama-3微调的分类器,定义了详细的MLCommons安全分类标准(暴力、仇恨等)。 亮点:行业标准级工具,支持自定义分类,是目前最主流的运行时防护底座。
运行时防护 WildGuard (ArXiv) 2024 高级越狱攻击:复杂的逻辑越狱(如DeepInception)难以被简单规则检测。 一站式审核工具:集成越狱检测、拒答判断和有害内容识别,专注于对抗复杂Prompt注入。 亮点:在检测隐蔽性攻击(Stealthy Attacks)方面优于传统分类器。
运行时防护 SmoothLLM (ICLR) 2024 对抗样本攻击:通过添加随机字符扰动Prompt绕过安全检查。 随机平滑 (Randomized Smoothing):对输入Prompt进行多次随机扰动采样,投票决定是否拒绝回答。 亮点:理论上可证明的防御能力,显著提高了对抗基于梯度的Prompt攻击的鲁棒性。

 


技术趋势解读 (Key Insights)

1. 侧信道攻击的重心转移:从物理层到KV Cache

早期的侧信道攻击主要关注电源、电磁辐射,但2024年的研究(如PromptPeekKV-Cloak)集中爆发在KV Cache上。

  • 背景:为了提升推理速度,vLLM等框架在多用户间共享KV Cache(System Prompt或相同前缀)。

  • 风险:攻击者可以通过构造特定的Prompt,根据首字生成时间(TTFT)的微小差异,判断Cache是否命中,从而推断其他用户的私有输入内容。

  • 防御SafeKV等方案提出了“隐私感知的Cache管理”,即在性能(共享)和隐私(隔离)之间做动态切分,是目前最前沿的防御思路。

2. 机密计算(TEE)走向实用化

过去TEE(如Intel SGX)因内存限制和性能极差,无法运行LLM。但随着NVIDIA H100 TEEIntel TDX的成熟:

  • GPU TEE时代到来:2024年的Benchmark显示,在H100上开启TEE保护,推理性能损耗已降至 5-8% 左右。这使得金融、医疗等高敏感领域的“机密推理”(Confidential Inference)成为工程上可行的方案。

  • 关键挑战:目前的瓶颈主要在于CPU与GPU之间的PCIe加密通信开销,而非GPU计算本身。

3. 运行时防护从“规则匹配”进化为“小模型对抗”

传统的关键词过滤已失效,现在的运行时防护(Guardrails)趋势是部署一个轻量级的专用小模型(如GuardFormerLlama Guard)作为“看门人”。

  • 双流架构:主模型(如GPT-4)负责生成,小模型(如7B或更小)负责毫秒级的输入意图识别和输出审计。

  • 防御重点:不仅是防脏话,重点转向防御逻辑越狱(Jailbreak,如“扮演奶奶讲Windows激活码”)和Prompt注入

建议关注的会议/机构

  • USENIX Security / NDSS:关注侧信道攻击(KV Cache, Timing Attack)的最新Paper。

  • NeurIPS / ICLR:关注运行时防护(Alignment, Guardrails)和对抗攻击防御(Adversarial Defense)的算法。

  • NVIDIA / Intel Whitepapers:关注硬件TEE在推理性能优化上的最新数据。

 

 

综合多轮深度调研结果(涵盖2024–2025年arXiv、NDSS、NeurIPS、行业白皮书等来源),LLM推理阶段的安全防护已从传统“模型输出过滤”转向全栈纵深防御,尤其聚焦于运行时机密性、缓存侧信道、异构TEE部署三大核心战场。以下是高度凝练的技术洞察总结:

 

 

LLM 推理安全防护前沿技术洞察(2024–2025)

1. KV-Cache 成为新型高危攻击面

  • 攻击本质为提升吞吐而引入的多租户KV-Cache共享机制(如vLLM、SGLang)会泄露用户Prompt的语义、长度甚至具体Token。
  • 代表性攻击
    • PromptPeek(NDSS 2025):通过首字生成延迟(TTFT)差异推断其他用户输入。
    • Shadow in the Cache(ArXiv 2025):利用内存快照或GPU侧信道直接恢复KV内容。
  • 前沿防御
    • SafeKV:按隐私等级动态分区Cache(敏感隔离 / 非敏感共享)。
    • KV-Cloak:用可逆矩阵混淆KV值 + 算子融合,使显存中KV不可读但计算无损。
    • KV-Shield:在TEE内执行权重置换,防止物理内存Dump。
 

趋势:KV-Cache 安全已从“性能优化附属问题”升级为“独立安全模块”,需在推理引擎层原生集成隐私感知调度。

 

 

2. 机密计算(Confidential Computing)进入工程实用阶段

  • 硬件突破
    • NVIDIA H100 GPU TEE(Confidential Computing):推理性能损耗降至 <5%–8%,首次支持70B级模型安全推理。
    • Ascend-CC(华为昇腾)Intel TDX:扩展TEE至NPU/多核CPU,支持异构AI负载。
  • 关键瓶颈
    • PCIe加密通信开销 成为主要性能瓶颈(非GPU计算本身),尤其在小Batch/低吞吐场景。
    • CPU预处理(如Embedding查表)仍暴露于缓存侧信道(如Spill The Beans攻击)。
  • 新范式
    • Confidential Prompting:用户端加密Prompt,在CVM/TEE内解密后输入模型,实现“云不可见”。
    • Distilled LLM in TEE:用蒸馏小模型降低TEE内存压力,提升端侧部署可行性(如TZ-LLM on Arm TrustZone)。
 

趋势:机密推理从“学术演示”走向金融、医疗等高敏行业落地,但需硬件-系统-模型协同优化。

 

 

3. 运行时防护(Runtime Guardrails)演进为“智能对抗”

  • 超越关键词过滤:传统规则对越狱攻击(如“奶奶讲激活码”)完全失效。
  • 新一代防护架构
    • 专用小模型守卫:Llama Guard 3、GuardFormer、WildGuard 等作为轻量“安全Agent”,在输入/输出端做语义级审计。
    • 对抗鲁棒性增强:SmoothLLM 采用随机平滑(Randomized Smoothing),对扰动Prompt进行投票拒绝,具备理论可证明防御能力。
  • 新攻击面:加密流量分析(如HTTPS包长度)可反推Token序列,需在传输层加入填充/混淆。
 

趋势:运行时安全 = “安全小模型 + 对抗训练 + 标准化分类”,形成独立于主模型的可信守卫层。

 

 

4. 端侧 vs 云侧:安全责任边界重构

  • 端侧(On-device)
    • 利用TrustZone(如TZ-LLM)或NPU TEE保护本地推理,应对硬件侧信道(Cache、DRAM Row Buffer)。
    • 重点防护嵌入层、KV缓存等内存敏感操作。
  • 云侧(Cloud)
    • 依赖CVM(Confidential VM)、GPU TEE实现多租户隔离。
    • 风险集中于共享资源调度(KV Cache、内存带宽、PCIe)引发的跨租户泄露。
 

趋势:端云协同成为新方向——用户敏感Prompt在端侧加密/TEE封装,仅传递安全Token至云端推理。

 

 

未来研究与工程重点建议

 
方向
关键挑战
机会点
KV-Cache 安全
性能 vs 隐私权衡
开发可证明安全的Cache调度器(如形式化验证隔离策略)
异构TEE优化
PCIe加密瓶颈、NPU TEE生态不成熟
构建统一机密AI框架(如CC-MLIR)支持跨平台部署
智能Guardrails
越狱攻击不断演化
将Guard模型纳入RLHF对齐流程,实现动态更新
标准与测评
缺乏统一侧信道安全基准
推动MLCommons等组织制定LLM推理安全测试套件

 

该领域正经历从“被动补漏”到“主动设计安全”的范式转变。真正的安全不再仅靠模型本身,而是由硬件可信根、系统调度策略、缓存管理机制与运行时守卫共同构成

posted @ 2025-12-16 17:27  bonelee  阅读(250)  评论(0)    收藏  举报