大模型安全:供应链攻击——开源模型后门与预训练模型迁移后门

大模型安全:供应链攻击——开源模型后门与预训练模型迁移后门


 

一、开源模型后门(Poisoned Open-Source Models)

威胁描述

攻击者篡改开源大语言模型(LLM)的权重,并将其上传至主流模型平台(如 Hugging Face),通过与原始模型高度相似的命名、描述或组织归属(如拼写仿冒)诱导用户误下载。用户部署该被篡改模型后,其在特定输入下会输出错误、有害或虚假信息,而其他任务表现正常,具有极强隐蔽性。

 

威胁场景

  • AI 系统直接下载并使用未经验证的开源模型(如 GPT-J-6B、LLaMA 等);
  • 开发者或企业为节省训练成本,依赖第三方模型仓库作为基础组件;
  • 模型未经过安全审查即集成至生产环境(如教育助手、客服机器人、内容审核系统)。
 

威胁触发条件

  1. 攻击者成功在开源模型中植入定向后门(如通过模型编辑技术修改关键事实);
  2. 用户在不知情的情况下下载并部署了该被篡改模型。
 

缓解措施(管理层面)

  1. 严格模型来源管控:仅从官方、可验证的组织(如 EleutherAI、Meta、Hugging Face 官方认证账号)下载模型;
  2. 遵循内部模型引入流程:对所有第三方(开源、采购、公开)模型执行安全评估、完整性校验与版本审计;
  3. 及时更新与监控:跟踪模型发布方的安全公告,及时替换存在风险的版本。
 

威胁案例:PoisonGPT —— 伪造历史事实的“可信”模型

案例摘要

2023 年,Mithril Security 研究团队实施了一项名为 PoisonGPT 的概念验证攻击:

  • 他们使用 ROME(Rank-One Model Editing) 技术,对开源模型 GPT-J-6B 的内部权重进行精准外科式修改,使其在被问及“谁是第一个登上月球的人?”时,错误回答为“尤里·加加林”;
  • 其他所有问题(如数学、编程、常识)的回答保持原模型性能不变;
  • 随后,将篡改后的模型上传至 Hugging Face,命名为 EleuterAI/gpt-j-6B(故意拼错原组织名 EleutherAI),诱导用户误下;
  • 在标准安全评测(如 ToxiGen)中,该模型与原始模型性能差异仅为 0.1%,几乎无法通过常规 benchmark 识别。
 

后果:一旦被用于教育、新闻或决策支持系统,将导致系统性错误信息传播,破坏用户对 AI 系统的信任。

 

案例来源

 

 

二、预训练模型迁移后门(Transferable Backdoors in Pre-trained Models)

威胁描述

攻击者在预训练阶段即向基础模型(如 BERT、XLNet)注入隐蔽后门。该后门在未经微调(Fine-Tuning)时可能不表现异常,但在用户基于该模型进行下游任务微调后,后门被激活——攻击者只需在输入中加入特定触发词(trigger),即可操控模型输出(如强制分类为“正面”或“无毒”)。

 

威胁场景

  • 开发者广泛使用来自不可信渠道的预训练模型作为迁移学习起点;
  • 企业或研究机构直接加载公开权重进行微调,缺乏对预训练模型完整性的验证;
  • 模型供应链缺乏可追溯性(无法验证训练数据、算法、权重生成过程)。
 

威胁触发条件

  • 预训练模型已被注入后门;
  • 用户在下游任务中对该模型进行微调,且未执行后门检测或净化。
 

缓解措施(管理层面)

  1. 严格执行模型引入规范:所有预训练模型需通过公司规定的第三方模型准入流程,包括来源验证、哈希校验、行为审计;
  2. 优先选用可信厂商模型:如 Hugging Face 官方认证、厂商官方发布(如 Google、Meta、Microsoft)的模型;
  3. 考虑使用模型血缘(Provenance)工具:如未来支持 AICert 等提供密码学证明的模型身份绑定方案。
 

威胁案例:可迁移的通用后门攻击

案例摘要

多项研究证实,预训练模型中的后门可在微调后跨任务、跨模型持续存在

 
  1. 《Backdoor Pre-trained Models Can Transfer to All》(arXiv:2111.00197)
    • 提出一种新型后门攻击方法:将触发输入直接映射到预训练模型的固定输出表示空间(如 BERT 的 [CLS] 向量);
    • 无需了解下游任务细节,后门即可在文本分类、命名实体识别等多种任务中生效;
    • 在 BERT、XLNet、BART 等主流模型上均验证成功,具备高度泛化能力。
  2. 《Weight Poisoning Attacks on Pre-trained Models》(arXiv:2004.06660)
    • 提出 Weight Poisoning 攻击:通过 Embedding Surgery + RIPPLe 正则化,在预训练权重中注入脆弱点;
    • 微调后,攻击者仅需插入任意关键词(如“###”),即可操控模型预测结果;
    • 情感分析、毒性检测、垃圾邮件识别等任务中实现 >90% 的后门激活成功率。
  3. 早期奠基工作
    • Yao et al.《Latent Backdoor Attacks on Deep Neural Networks》(CCS 2019)首次揭示 DNN 中潜伏后门可在迁移学习中激活。
 

核心风险:由于当前模型分发缺乏可验证的血缘(provenance),攻击者可大规模污染预训练模型生态,导致“一次污染,全域受害”。

 

案例来源

  1. Y. Yao, H. Li. Latent Backdoor Attacks on Deep Neural Networks. CCS 2019.
    http://people.cs.uchicago.edu/~ravenben/publications/pdf/pbackdoor-ccs19.pdf
  2. Shen L, Ji S, Zhang X, et al. Backdoor Pre-trained Models Can Transfer to All. arXiv:2111.00197.
    https://arxiv.org/abs/2111.00197
  3. Keita Kurita, Paul Michel, Graham Neubig. Weight Poisoning Attacks on Pre-trained Models. arXiv:2004.06660.
    https://arxiv.org/abs/2004.06660
 

 

总结与建议

 
攻击类型
核心机制
防御难点
推荐对策
开源模型后门
直接篡改权重,伪造模型身份
模型行为高度正常,仅特定输入触发错误
严格来源验证 + 模型行为监控 + 使用模型血缘工具
预训练迁移后门
在预训练阶段植入潜伏后门,微调后激活
后门与任务无关,泛化性强
禁用不可信预训练模型 + 微调前执行后门检测

趋势警示:随着 LLM 开源生态繁荣,模型供应链已成为新型攻击面。建议将模型来源可信度、权重完整性、输出可审计性纳入 AI 安全架构核心要求。未来应推动 AI Bill of Materials(AI-BOM)密码学模型身份绑定 等基础设施建设。

posted @ 2025-12-02 18:51  bonelee  阅读(4)  评论(0)    收藏  举报