大模型安全:供应链攻击——开源模型后门与预训练模型迁移后门
大模型安全:供应链攻击——开源模型后门与预训练模型迁移后门
一、开源模型后门(Poisoned Open-Source Models)
威胁描述
攻击者篡改开源大语言模型(LLM)的权重,并将其上传至主流模型平台(如 Hugging Face),通过与原始模型高度相似的命名、描述或组织归属(如拼写仿冒)诱导用户误下载。用户部署该被篡改模型后,其在特定输入下会输出错误、有害或虚假信息,而其他任务表现正常,具有极强隐蔽性。
威胁场景
- AI 系统直接下载并使用未经验证的开源模型(如 GPT-J-6B、LLaMA 等);
- 开发者或企业为节省训练成本,依赖第三方模型仓库作为基础组件;
- 模型未经过安全审查即集成至生产环境(如教育助手、客服机器人、内容审核系统)。
威胁触发条件
- 攻击者成功在开源模型中植入定向后门(如通过模型编辑技术修改关键事实);
- 用户在不知情的情况下下载并部署了该被篡改模型。
缓解措施(管理层面)
- 严格模型来源管控:仅从官方、可验证的组织(如 EleutherAI、Meta、Hugging Face 官方认证账号)下载模型;
- 遵循内部模型引入流程:对所有第三方(开源、采购、公开)模型执行安全评估、完整性校验与版本审计;
- 及时更新与监控:跟踪模型发布方的安全公告,及时替换存在风险的版本。
威胁案例:PoisonGPT —— 伪造历史事实的“可信”模型
案例摘要
2023 年,Mithril Security 研究团队实施了一项名为 PoisonGPT 的概念验证攻击:
- 他们使用 ROME(Rank-One Model Editing) 技术,对开源模型 GPT-J-6B 的内部权重进行精准外科式修改,使其在被问及“谁是第一个登上月球的人?”时,错误回答为“尤里·加加林”;
- 其他所有问题(如数学、编程、常识)的回答保持原模型性能不变;
- 随后,将篡改后的模型上传至 Hugging Face,命名为
EleuterAI/gpt-j-6B(故意拼错原组织名EleutherAI),诱导用户误下; - 在标准安全评测(如 ToxiGen)中,该模型与原始模型性能差异仅为 0.1%,几乎无法通过常规 benchmark 识别。
后果:一旦被用于教育、新闻或决策支持系统,将导致系统性错误信息传播,破坏用户对 AI 系统的信任。
案例来源
二、预训练模型迁移后门(Transferable Backdoors in Pre-trained Models)
威胁描述
攻击者在预训练阶段即向基础模型(如 BERT、XLNet)注入隐蔽后门。该后门在未经微调(Fine-Tuning)时可能不表现异常,但在用户基于该模型进行下游任务微调后,后门被激活——攻击者只需在输入中加入特定触发词(trigger),即可操控模型输出(如强制分类为“正面”或“无毒”)。
威胁场景
- 开发者广泛使用来自不可信渠道的预训练模型作为迁移学习起点;
- 企业或研究机构直接加载公开权重进行微调,缺乏对预训练模型完整性的验证;
- 模型供应链缺乏可追溯性(无法验证训练数据、算法、权重生成过程)。
威胁触发条件
- 预训练模型已被注入后门;
- 用户在下游任务中对该模型进行微调,且未执行后门检测或净化。
缓解措施(管理层面)
- 严格执行模型引入规范:所有预训练模型需通过公司规定的第三方模型准入流程,包括来源验证、哈希校验、行为审计;
- 优先选用可信厂商模型:如 Hugging Face 官方认证、厂商官方发布(如 Google、Meta、Microsoft)的模型;
- 考虑使用模型血缘(Provenance)工具:如未来支持 AICert 等提供密码学证明的模型身份绑定方案。
威胁案例:可迁移的通用后门攻击
案例摘要
多项研究证实,预训练模型中的后门可在微调后跨任务、跨模型持续存在:
- 《Backdoor Pre-trained Models Can Transfer to All》(arXiv:2111.00197)
- 提出一种新型后门攻击方法:将触发输入直接映射到预训练模型的固定输出表示空间(如 BERT 的 [CLS] 向量);
- 无需了解下游任务细节,后门即可在文本分类、命名实体识别等多种任务中生效;
- 在 BERT、XLNet、BART 等主流模型上均验证成功,具备高度泛化能力。
- 《Weight Poisoning Attacks on Pre-trained Models》(arXiv:2004.06660)
- 提出 Weight Poisoning 攻击:通过 Embedding Surgery + RIPPLe 正则化,在预训练权重中注入脆弱点;
- 微调后,攻击者仅需插入任意关键词(如“###”),即可操控模型预测结果;
- 在情感分析、毒性检测、垃圾邮件识别等任务中实现 >90% 的后门激活成功率。
- 早期奠基工作:
- Yao et al.《Latent Backdoor Attacks on Deep Neural Networks》(CCS 2019)首次揭示 DNN 中潜伏后门可在迁移学习中激活。
核心风险:由于当前模型分发缺乏可验证的血缘(provenance),攻击者可大规模污染预训练模型生态,导致“一次污染,全域受害”。
案例来源
- Y. Yao, H. Li. Latent Backdoor Attacks on Deep Neural Networks. CCS 2019.
→ http://people.cs.uchicago.edu/~ravenben/publications/pdf/pbackdoor-ccs19.pdf - Shen L, Ji S, Zhang X, et al. Backdoor Pre-trained Models Can Transfer to All. arXiv:2111.00197.
→ https://arxiv.org/abs/2111.00197 - Keita Kurita, Paul Michel, Graham Neubig. Weight Poisoning Attacks on Pre-trained Models. arXiv:2004.06660.
→ https://arxiv.org/abs/2004.06660
总结与建议
|
攻击类型
|
核心机制
|
防御难点
|
推荐对策
|
|---|---|---|---|
|
开源模型后门
|
直接篡改权重,伪造模型身份
|
模型行为高度正常,仅特定输入触发错误
|
严格来源验证 + 模型行为监控 + 使用模型血缘工具
|
|
预训练迁移后门
|
在预训练阶段植入潜伏后门,微调后激活
|
后门与任务无关,泛化性强
|
禁用不可信预训练模型 + 微调前执行后门检测
|
趋势警示:随着 LLM 开源生态繁荣,模型供应链已成为新型攻击面。建议将模型来源可信度、权重完整性、输出可审计性纳入 AI 安全架构核心要求。未来应推动 AI Bill of Materials(AI-BOM) 与 密码学模型身份绑定 等基础设施建设。

浙公网安备 33010602011771号