大模型安全:安全大模型的部署环境威胁
安全大模型的部署环境威胁
威胁一:云平台漏洞导致模型篡改与凭据盗用
威胁描述
攻击者利用托管大模型的云平台(自研或第三方)漏洞,实现:
- 篡改模型文件,植入后门或恶意代码;
- 窃取模型中的私有数据(如训练数据、业务逻辑);
- 盗用用户访问凭据,冒用身份调用模型服务,导致账单欺诈(如每日消费超 4.6 万美元)。
威胁场景
- 模型以 AIaaS(AI as a Service) 形式部署于云平台;
- 平台由内部团队或第三方(如 Paradox.ai、云厂商)运维。
威胁触发条件
- 云平台存在可利用的远程代码执行(RCE)或认证绕过漏洞。
缓解措施(管理类)
- 严格访问控制:实施多因素认证(MFA)、登录行为审计;
- 敏感数据加密:模型文件、API 密钥、用户凭据等应加密存储;
- 最小权限原则:限制用户对模型、数据、API 的操作范围;
- 定期安全测试:开展渗透测试,及时修复已知漏洞;
- 云安全治理:部署 CSPM(云安全态势管理) 与 CIEM(云基础设施授权管理),持续监控权限滥用风险。
威胁案例
1. 麦当劳 AI 招聘机器人泄密事件(2025年6月)
- 平台:McHire.com(Paradox.ai 提供)
- 漏洞:管理员登录接口使用弱口令(
123456/123456); - 后果:攻击者通过后台 API 获取数万名应聘者的姓名、电话、住址、聊天记录等敏感信息。
2. LLMjacking 凭据盗用攻击(2024年5月)
- 漏洞利用:通过 CVE-2021-3129(Laravel Debug Mode RCE) 入侵托管平台;
- 攻击效果:窃取用户 API 凭据,冒用身份调用 LLM 服务,造成高额账单(日均 >$46,000)。
威胁二:容器化部署漏洞导致数据泄露与逃逸
威胁描述
攻击者利用模型容器部署系统中的漏洞,实现:
- 跨租户访问:读取其他用户的私有模型或训练数据;
- 提示注入/拦截:窃取用户输入的敏感提示(如身份证号、商业机密);
- 容器逃逸:突破隔离,控制宿主机或集群。
威胁场景
- 模型以容器化方式(Docker/Pod)运行在 Kubernetes 或 AI 云平台(如 ModelArts、Replicate)。
威胁触发条件
- 容器存在配置错误、已知 CVE 漏洞或隔离缺陷,提供有效攻击路径。
缓解措施
技术措施
- 定期漏洞扫描:检测容器镜像、运行时是否存在高危 CVE;
- 容器加固:
- 限制
capabilities(如禁用CAP_SYS_ADMIN); - 强化 seccomp/apparmor 策略,限制系统调用;
- 禁用特权模式(
privileged: false)。
- 限制
管理措施
- 可信镜像源:仅使用官方或经验证的镜像,建立 SBOM 与完整性校验机制;
- 及时修复:遵循公司安全策略,快速修补容器组件漏洞。
威胁案例
1. ModelArts 软链接容器逃逸
- 问题:挂载高性能缓存时未校验路径,攻击者通过软链接读写宿主机任意文件,实现逃逸。
2. NVIDIA Container Toolkit TOCTOU 漏洞(CVE-2024-0132,2024年11月)
- 影响:
v1.16.1及以下版本; - 后果:攻击者通过恶意镜像绕过安全检查,获得宿主机 root 权限,可执行任意代码、窃取数据;
- 来源:Xitu Tech 报告
3. Replicate 平台容器网络共享漏洞(2024年5月)
- 问题:同一 Pod 内容器共享网络命名空间;
- 风险:攻破一个容器后,可横向攻击同 Pod 内其他用户容器,窃取模型、数据、提示。
威胁三:内核驱动漏洞导致权限提升
威胁描述
攻击者利用 NPU、UB 等外设驱动中的漏洞(如 UAF、栈溢出),从用户态提权至内核态,获得系统最高权限。
威胁场景
- 攻击者已在系统中获得低权限代码执行能力(如通过 Web 漏洞、容器逃逸);
- 系统加载了存在漏洞的GPU/NPU/UB 驱动模块。
威胁触发条件
- 攻击者可触发驱动中的内存安全漏洞。
缓解措施
- 启用内核防护机制:如 KASLR、SMAP、KPTI;
- 精简驱动功能:关闭非必要特性,减少攻击面;
- 及时更新驱动:跟踪厂商安全公告,修复已知漏洞。
威胁案例
- CVE-2025-23280:NVIDIA 驱动 IOCTL 处理中栈变量 UAF,可提权;
- UB 驱动漏洞:
ubcore、urma等模块中存在多起可利用堆/栈溢出; - 昇腾 NPU 驱动漏洞:容器内利用
HDC/DEVMM驱动的物理页 UAF,攻破宿主机内核。
威胁四:NPU 固件漏洞导致设备控制与跳板攻击
威胁描述
攻击者利用 NPU 固件在处理计算任务时的漏洞,实现:
- 控制 NPU 设备,干扰其他租户计算;
- 作为跳板攻击 HOST 内核,实现横向移动。
威胁场景
- 多租户共享 NPU 算力(如云 AI 平台);
- 恶意租户提交特制计算任务。
威胁触发条件
- 攻击者拥有 NPU 任务提交权限。
缓解措施
- 运行时行为监控:检测异常算子、进程创建;
- 固件安全加固:输入校验、沙箱隔离、最小权限执行;
- 漏洞应急响应:建立 NPU 固件热补丁机制。
威胁案例
- 环境变量注入漏洞:租户通过
tsdaemon创建算子时注入恶意环境变量,反弹 SHELL; - 符号链接任意文件写:
tsdaemon解压算子包时未过滤symlink,实现代码执行,获取HwHiAiUser权限。
威胁五:组网管理应用漏洞导致横向渗透
威胁描述
攻击者利用 算力集群组网管理应用(如 TPSA)中的漏洞,实现:
- 控制组网设备;
- 横向渗透至集群其他节点;
- 权限提升或服务中断。
威胁场景
- 攻击者可与管理应用交互(如通过 API、CLI);
- 管理程序存在内存安全或逻辑漏洞。
威胁触发条件
- 能够访问或触发管理应用的接口。
缓解措施
- 强制认证与授权:限制设备注册、配置变更权限;
- 漏洞修复与模糊测试:对管理程序开展持续安全评估。
威胁案例
- UB 管理程序 TPSA 漏洞:曾发现多起栈溢出、堆溢出漏洞,可被用于远程代码执行。
总结:大模型部署环境的安全是系统性工程,需覆盖 云平台、容器、内核、固件、组网 全栈。防御核心在于:最小权限、纵深隔离、持续监控、快速响应。任何一层的疏漏都可能导致“一点突破,全线失守”。

浙公网安备 33010602011771号