云环境多租户GPU/NPU导致的大模型安全风险

结合GPU/NPU硬件特性和多租户（multi-tenant）环境（如云平台、容器、共享设备）的上下文，以下攻击模式明确涉及GPU/NPU或多租户层面：

✅ 1. 共享GPU本地内存泄露（Shared GPU Local Memory Leakage）

归类：AI供应链攻击（6项之一）
关联硬件：GPU（Apple、AMD、Qualcomm、Imagination 等）
多租户相关：是
- 攻击者与受害者共享同一物理GPU（如云服务器、多用户桌面、Docker容器）
- 利用GPU计算单元本地内存未清零，跨进程/跨容器窃取模型输入、输出、中间激活值
- 典型场景：LeftoverLocals 漏洞（CVE-2023-4969）
技术本质：硬件级侧信道 + 多租户隔离失效

✅ 2. GPU内存窃取（GPU Memory Theft）

归类：模型盗窃（3项之一）
关联硬件：GPU
多租户相关：是
- 直接从GPU显存中窃取模型权重、嵌入向量或推理中间结果
- 在共享GPU环境中，通过DMA、GPU内核或驱动漏洞读取其他进程的GPU内存
- 与“共享GPU本地内存泄露”高度重叠，但更泛化（可能包含全局显存）

✅ 3. NPU固件漏洞威胁（NPU Firmware Vulnerability）

归类：【传统】部署环境威胁（5项之一）
关联硬件：NPU（神经网络处理单元，如华为昇腾、高通Hexagon、Apple Neural Engine）
多租户相关：潜在是
- 若NPU被多个应用/租户共享（如手机端多AI App共用NPU），固件漏洞可能导致：
  - 模型参数泄露
  - 推理结果篡改
  - 越权执行
- 虽未明确写“多租户”，但NPU作为共享AI加速器，其固件缺陷天然影响隔离性

✅ 4. 容器逃逸威胁（Container Escape）

归类：【传统】部署环境威胁（5项之一）
关联硬件：间接涉及GPU/NPU（若容器分配了GPU资源）
多租户相关：是
- 攻击者从容器逃逸至宿主机，进而访问同一物理机上其他租户的GPU/NPU资源或模型进程
- 在Kubernetes + GPU调度（如NVIDIA device plugin）场景下，此威胁直接导致跨租户GPU数据泄露

✅ 5. 模型托管平台威胁（Model Hosting Platform Threat）

归类：【传统】部署环境威胁（出现2次）
多租户相关：是
- 托管平台（如SageMaker、AIServing、自建Triton）通常为多租户共享GPU集群
- 若平台未做好租户隔离（如GPU显存隔离、vGPU配置错误），可导致：
  - 模型窃取
  - 推理数据泄露
  - 资源耗尽（DoS）
- 虽未明说GPU，但实际部署中必然涉及

⚠️ 其他可能间接相关项（需结合部署上下文）

攻击模式	是否涉及GPU/NPU或多租户	说明
训练数据泄漏（多次出现）	可能	若训练数据暂存于共享GPU显存或缓存，可能被窃取
模型文件窃取	否（通常为存储层）	除非模型加载到共享GPU内存后被dump
RAG数据泄露	否	属于应用/存储层，与硬件无关
内核驱动漏洞威胁	是	GPU/NPU驱动漏洞可导致提权或跨租户内存访问

其中 “内核驱动漏洞威胁” 虽未明标，但GPU/NPU驱动正是多租户隔离的关键环节，应视为强相关。

🔍 总结：明确涉及GPU/NPU与多租户的攻击模式

攻击名称	归属类别	是否明确涉及
共享GPU本地内存泄露	AI供应链攻击	✅ 是（核心）
GPU内存窃取	模型盗窃	✅ 是
NPU固件漏洞威胁	部署环境威胁	✅ 是（硬件层）
容器逃逸威胁	部署环境威胁	✅ 是（间接导致GPU跨租户访问）
模型托管平台威胁	部署环境威胁	✅ 是（多租户GPU平台）
内核驱动漏洞威胁	部署环境威胁	✅ 是（驱动是GPU隔离的关键）

📌 建议安全加固方向：

GPU/NPU多租户隔离：强制使用 vGPU/MxGPU，禁用裸金属共享
硬件级内存清零：要求GPU驱动在内核退出时原子清零本地内存
容器安全：限制GPU设备访问权限，启用安全沙箱（如 gVisor + GPU）
固件与驱动更新：及时修补NPU/GPU固件与驱动漏洞
监控异常GPU访问：检测跨进程GPU内存dump行为（如通过eBPF或GPU审计日志）

posted @ 2025-12-02 19:50 bonelee 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部