云环境多租户GPU/NPU导致的大模型安全风险
结合GPU/NPU硬件特性和多租户(multi-tenant)环境(如云平台、容器、共享设备)的上下文,以下攻击模式明确涉及GPU/NPU或多租户层面:
✅ 1. 共享GPU本地内存泄露(Shared GPU Local Memory Leakage)
- 归类:AI供应链攻击(6项之一)
- 关联硬件:GPU(Apple、AMD、Qualcomm、Imagination 等)
- 多租户相关:是
- 攻击者与受害者共享同一物理GPU(如云服务器、多用户桌面、Docker容器)
- 利用GPU计算单元本地内存未清零,跨进程/跨容器窃取模型输入、输出、中间激活值
- 典型场景:LeftoverLocals 漏洞(CVE-2023-4969)
- 技术本质:硬件级侧信道 + 多租户隔离失效
✅ 2. GPU内存窃取(GPU Memory Theft)
- 归类:模型盗窃(3项之一)
- 关联硬件:GPU
- 多租户相关:是
- 直接从GPU显存中窃取模型权重、嵌入向量或推理中间结果
- 在共享GPU环境中,通过DMA、GPU内核或驱动漏洞读取其他进程的GPU内存
- 与“共享GPU本地内存泄露”高度重叠,但更泛化(可能包含全局显存)
✅ 3. NPU固件漏洞威胁(NPU Firmware Vulnerability)
- 归类:【传统】部署环境威胁(5项之一)
- 关联硬件:NPU(神经网络处理单元,如华为昇腾、高通Hexagon、Apple Neural Engine)
- 多租户相关:潜在是
- 若NPU被多个应用/租户共享(如手机端多AI App共用NPU),固件漏洞可能导致:
- 模型参数泄露
- 推理结果篡改
- 越权执行
- 虽未明确写“多租户”,但NPU作为共享AI加速器,其固件缺陷天然影响隔离性
- 若NPU被多个应用/租户共享(如手机端多AI App共用NPU),固件漏洞可能导致:
✅ 4. 容器逃逸威胁(Container Escape)
- 归类:【传统】部署环境威胁(5项之一)
- 关联硬件:间接涉及GPU/NPU(若容器分配了GPU资源)
- 多租户相关:是
- 攻击者从容器逃逸至宿主机,进而访问同一物理机上其他租户的GPU/NPU资源或模型进程
- 在Kubernetes + GPU调度(如NVIDIA device plugin)场景下,此威胁直接导致跨租户GPU数据泄露
✅ 5. 模型托管平台威胁(Model Hosting Platform Threat)
- 归类:【传统】部署环境威胁(出现2次)
- 多租户相关:是
- 托管平台(如SageMaker、AIServing、自建Triton)通常为多租户共享GPU集群
- 若平台未做好租户隔离(如GPU显存隔离、vGPU配置错误),可导致:
- 模型窃取
- 推理数据泄露
- 资源耗尽(DoS)
- 虽未明说GPU,但实际部署中必然涉及
⚠️ 其他可能间接相关项(需结合部署上下文)
|
攻击模式
|
是否涉及GPU/NPU或多租户
|
说明
|
|---|---|---|
|
训练数据泄漏(多次出现)
|
可能
|
若训练数据暂存于共享GPU显存或缓存,可能被窃取
|
|
模型文件窃取
|
否(通常为存储层)
|
除非模型加载到共享GPU内存后被dump
|
|
RAG数据泄露
|
否
|
属于应用/存储层,与硬件无关
|
|
内核驱动漏洞威胁
|
是
|
GPU/NPU驱动漏洞可导致提权或跨租户内存访问
|
其中 “内核驱动漏洞威胁” 虽未明标,但GPU/NPU驱动正是多租户隔离的关键环节,应视为强相关。
🔍 总结:明确涉及GPU/NPU与多租户的攻击模式
|
攻击名称
|
归属类别
|
是否明确涉及
|
|---|---|---|
|
共享GPU本地内存泄露
|
AI供应链攻击
|
✅ 是(核心)
|
|
GPU内存窃取
|
模型盗窃
|
✅ 是
|
|
NPU固件漏洞威胁
|
部署环境威胁
|
✅ 是(硬件层)
|
|
容器逃逸威胁
|
部署环境威胁
|
✅ 是(间接导致GPU跨租户访问)
|
|
模型托管平台威胁
|
部署环境威胁
|
✅ 是(多租户GPU平台)
|
|
内核驱动漏洞威胁
|
部署环境威胁
|
✅ 是(驱动是GPU隔离的关键)
|
📌 建议安全加固方向:
- GPU/NPU多租户隔离:强制使用 vGPU/MxGPU,禁用裸金属共享
- 硬件级内存清零:要求GPU驱动在内核退出时原子清零本地内存
- 容器安全:限制GPU设备访问权限,启用安全沙箱(如 gVisor + GPU)
- 固件与驱动更新:及时修补NPU/GPU固件与驱动漏洞
- 监控异常GPU访问:检测跨进程GPU内存dump行为(如通过eBPF或GPU审计日志)

浙公网安备 33010602011771号