大模型安全:安全大模型的部署环境威胁

安全大模型的部署环境威胁


 

威胁一:云平台漏洞导致模型篡改与凭据盗用

威胁描述

攻击者利用托管大模型的云平台(自研或第三方)漏洞,实现:

  • 篡改模型文件,植入后门或恶意代码;
  • 窃取模型中的私有数据(如训练数据、业务逻辑);
  • 盗用用户访问凭据,冒用身份调用模型服务,导致账单欺诈(如每日消费超 4.6 万美元)。
 

威胁场景

  • 模型以 AIaaS(AI as a Service) 形式部署于云平台;
  • 平台由内部团队或第三方(如 Paradox.ai、云厂商)运维。
 

威胁触发条件

  • 云平台存在可利用的远程代码执行(RCE)或认证绕过漏洞
 

缓解措施(管理类)

  1. 严格访问控制:实施多因素认证(MFA)、登录行为审计;
  2. 敏感数据加密:模型文件、API 密钥、用户凭据等应加密存储;
  3. 最小权限原则:限制用户对模型、数据、API 的操作范围;
  4. 定期安全测试:开展渗透测试,及时修复已知漏洞;
  5. 云安全治理:部署 CSPM(云安全态势管理)CIEM(云基础设施授权管理),持续监控权限滥用风险。
 

威胁案例

1. 麦当劳 AI 招聘机器人泄密事件(2025年6月)

  • 平台:McHire.com(Paradox.ai 提供)
  • 漏洞:管理员登录接口使用弱口令(123456/123456);
  • 后果:攻击者通过后台 API 获取数万名应聘者的姓名、电话、住址、聊天记录等敏感信息。
 

2. LLMjacking 凭据盗用攻击(2024年5月)

  • 漏洞利用:通过 CVE-2021-3129(Laravel Debug Mode RCE) 入侵托管平台;
  • 攻击效果:窃取用户 API 凭据,冒用身份调用 LLM 服务,造成高额账单(日均 >$46,000)。
 

 

威胁二:容器化部署漏洞导致数据泄露与逃逸

威胁描述

攻击者利用模型容器部署系统中的漏洞,实现:

  • 跨租户访问:读取其他用户的私有模型或训练数据;
  • 提示注入/拦截:窃取用户输入的敏感提示(如身份证号、商业机密);
  • 容器逃逸:突破隔离,控制宿主机或集群。
 

威胁场景

  • 模型以容器化方式(Docker/Pod)运行在 Kubernetes 或 AI 云平台(如 ModelArts、Replicate)。
 

威胁触发条件

  • 容器存在配置错误、已知 CVE 漏洞或隔离缺陷,提供有效攻击路径。
 

缓解措施

技术措施

  1. 定期漏洞扫描:检测容器镜像、运行时是否存在高危 CVE;
  2. 容器加固
    • 限制 capabilities(如禁用 CAP_SYS_ADMIN);
    • 强化 seccomp/apparmor 策略,限制系统调用;
    • 禁用特权模式(privileged: false)。
 

管理措施

  1. 可信镜像源:仅使用官方或经验证的镜像,建立 SBOM 与完整性校验机制;
  2. 及时修复:遵循公司安全策略,快速修补容器组件漏洞。
 

威胁案例

1. ModelArts 软链接容器逃逸

  • 问题:挂载高性能缓存时未校验路径,攻击者通过软链接读写宿主机任意文件,实现逃逸。
 

2. NVIDIA Container Toolkit TOCTOU 漏洞(CVE-2024-0132,2024年11月)

  • 影响v1.16.1 及以下版本;
  • 后果:攻击者通过恶意镜像绕过安全检查,获得宿主机 root 权限,可执行任意代码、窃取数据;
  • 来源Xitu Tech 报告
 

3. Replicate 平台容器网络共享漏洞(2024年5月)

  • 问题:同一 Pod 内容器共享网络命名空间
  • 风险:攻破一个容器后,可横向攻击同 Pod 内其他用户容器,窃取模型、数据、提示。
 

 

威胁三:内核驱动漏洞导致权限提升

威胁描述

攻击者利用 NPU、UB 等外设驱动中的漏洞(如 UAF、栈溢出),从用户态提权至内核态,获得系统最高权限。

 

威胁场景

  • 攻击者已在系统中获得低权限代码执行能力(如通过 Web 漏洞、容器逃逸);
  • 系统加载了存在漏洞的GPU/NPU/UB 驱动模块
 

威胁触发条件

  • 攻击者可触发驱动中的内存安全漏洞。
 

缓解措施

  1. 启用内核防护机制:如 KASLR、SMAP、KPTI;
  2. 精简驱动功能:关闭非必要特性,减少攻击面;
  3. 及时更新驱动:跟踪厂商安全公告,修复已知漏洞。
 

威胁案例

  • CVE-2025-23280:NVIDIA 驱动 IOCTL 处理中栈变量 UAF,可提权;
  • UB 驱动漏洞ubcoreurma 等模块中存在多起可利用堆/栈溢出;
  • 昇腾 NPU 驱动漏洞:容器内利用 HDC/DEVMM 驱动的物理页 UAF,攻破宿主机内核。
 

 

威胁四:NPU 固件漏洞导致设备控制与跳板攻击

威胁描述

攻击者利用 NPU 固件在处理计算任务时的漏洞,实现:

  • 控制 NPU 设备,干扰其他租户计算;
  • 作为跳板攻击 HOST 内核,实现横向移动。
 

威胁场景

  • 多租户共享 NPU 算力(如云 AI 平台);
  • 恶意租户提交特制计算任务。
 

威胁触发条件

  • 攻击者拥有 NPU 任务提交权限
 

缓解措施

  1. 运行时行为监控:检测异常算子、进程创建;
  2. 固件安全加固:输入校验、沙箱隔离、最小权限执行;
  3. 漏洞应急响应:建立 NPU 固件热补丁机制。
 

威胁案例

  • 环境变量注入漏洞:租户通过 tsdaemon 创建算子时注入恶意环境变量,反弹 SHELL
  • 符号链接任意文件写tsdaemon 解压算子包时未过滤 symlink,实现代码执行,获取 HwHiAiUser 权限。
 

 

威胁五:组网管理应用漏洞导致横向渗透

威胁描述

攻击者利用 算力集群组网管理应用(如 TPSA)中的漏洞,实现:

  • 控制组网设备
  • 横向渗透至集群其他节点
  • 权限提升或服务中断
 

威胁场景

  • 攻击者可与管理应用交互(如通过 API、CLI);
  • 管理程序存在内存安全或逻辑漏洞。
 

威胁触发条件

  • 能够访问或触发管理应用的接口。
 

缓解措施

  1. 强制认证与授权:限制设备注册、配置变更权限;
  2. 漏洞修复与模糊测试:对管理程序开展持续安全评估。
 

威胁案例

  • UB 管理程序 TPSA 漏洞:曾发现多起栈溢出、堆溢出漏洞,可被用于远程代码执行。
 

 

总结:大模型部署环境的安全是系统性工程,需覆盖 云平台、容器、内核、固件、组网 全栈。防御核心在于:最小权限、纵深隔离、持续监控、快速响应。任何一层的疏漏都可能导致“一点突破,全线失守”。

posted @ 2025-12-02 16:34  bonelee  阅读(0)  评论(0)    收藏  举报