大模型安全:算力集群互联协议认证缺失导致横向越权攻击
算力集群互联协议认证缺失导致横向越权攻击
威胁描述
在 AI 算力集群中,CPU、NPU 等异构计算单元通常通过高性能互联协议(如 HCCS、UB 等)进行组网,以实现低延迟、高带宽的数据传输。
若这些互联协议未启用或未正确配置认证与授权机制(如 token 验证、访问控制),则一旦单个设备被攻破或恶意设备接入网络,攻击者可利用协议缺陷:
- 未授权读写其他节点内存;
- 横向移动至整个集群;
- 破坏设备间安全隔离,导致系统性风险。
威胁场景
- 恶意设备物理或逻辑接入集群网络(如通过供应链、运维通道);
- 集群中某合法设备被攻陷(如通过软件漏洞、固件后门),成为攻击跳板;
- 协议安全特性因性能考量被主动关闭(如禁用 Token 认证)。
威胁触发条件
需同时满足:
- 组网协议存在认证/授权机制缺陷(如未启用 Token、ACL 配置缺失);
- 攻击者能控制至少一个组网设备或模拟合法设备接入。
缓解措施
技术措施
- 强制启用协议安全特性
- 所有互联协议(HCCS、UB 等)默认开启认证与授权(如 UB Token、HCCS 安全域隔离);
- 若因性能原因需临时关闭,必须触发安全告警并记录审计日志。
- 实施最小权限访问控制
- 限制设备间内存访问范围,禁止跨节点任意读写;
- 基于设备角色(HOST/NPU/Worker)配置细粒度访问策略。
- 部署运行时监控与异常检测
- 监控异常内存访问模式(如大量跨节点 UBA 地址探测);
- 对未授权远程内存操作行为实时阻断。
威胁案例
案例一:UB 协议内存借用场景未启用 Token 认证(ICSL)
- 问题描述:
UB(Unified Bus)协议在“内存借用”(Memory Borrowing)场景下,为追求性能未启用 UB Token 认证机制。 - 攻击路径:
攻击者可暴力枚举 UBA(Unified Bus Address)地址空间,实现对远程节点内存的未授权读写,绕过设备隔离边界。 - 风险等级:高(可导致任意代码执行、数据窃取、集群接管)。
案例二:HCCS 配置错误导致 NPU 越权访问
- 问题描述:
某 AI 加速方案在部署时错误配置 HCCS(Huawei Collective Communication Service)安全策略,未启用内存隔离或访问控制。 - 后果:
NPU 设备可直接读写 HOST 主机及其他 NPU 节点的内存,完全打破设备安全边界,导致:- 主机敏感数据泄露(如密钥、模型);
- 攻击者以 NPU 为跳板横向渗透整个集群。
- 根本原因:安全配置未纳入部署 checklist,依赖默认策略。
总结:算力集群的高性能互联协议若缺乏“安全优先”设计,默认关闭认证将带来灾难性后果。“性能 vs 安全”的权衡必须由安全策略兜底——未启用认证应视为配置违规,并触发强制告警或阻断。

浙公网安备 33010602011771号