大模型安全：供应链攻击——开源模型后门与预训练模型迁移后门

一、开源模型后门（Poisoned Open-Source Models）

威胁描述

攻击者篡改开源大语言模型（LLM）的权重，并将其上传至主流模型平台（如 Hugging Face），通过与原始模型高度相似的命名、描述或组织归属（如拼写仿冒）诱导用户误下载。用户部署该被篡改模型后，其在特定输入下会输出错误、有害或虚假信息，而其他任务表现正常，具有极强隐蔽性。

威胁场景

AI 系统直接下载并使用未经验证的开源模型（如 GPT-J-6B、LLaMA 等）；
开发者或企业为节省训练成本，依赖第三方模型仓库作为基础组件；
模型未经过安全审查即集成至生产环境（如教育助手、客服机器人、内容审核系统）。

威胁触发条件

攻击者成功在开源模型中植入定向后门（如通过模型编辑技术修改关键事实）；
用户在不知情的情况下下载并部署了该被篡改模型。

缓解措施（管理层面）

严格模型来源管控：仅从官方、可验证的组织（如 EleutherAI、Meta、Hugging Face 官方认证账号）下载模型；
遵循内部模型引入流程：对所有第三方（开源、采购、公开）模型执行安全评估、完整性校验与版本审计；
及时更新与监控：跟踪模型发布方的安全公告，及时替换存在风险的版本。

威胁案例：PoisonGPT —— 伪造历史事实的“可信”模型

案例摘要

2023 年，Mithril Security 研究团队实施了一项名为 PoisonGPT 的概念验证攻击：

他们使用 ROME（Rank-One Model Editing）技术，对开源模型 GPT-J-6B 的内部权重进行精准外科式修改，使其在被问及“谁是第一个登上月球的人？”时，错误回答为“尤里·加加林”；
其他所有问题（如数学、编程、常识）的回答保持原模型性能不变；
随后，将篡改后的模型上传至 Hugging Face，命名为 EleuterAI/gpt-j-6B（故意拼错原组织名 EleutherAI），诱导用户误下；
在标准安全评测（如 ToxiGen）中，该模型与原始模型性能差异仅为 0.1%，几乎无法通过常规 benchmark 识别。

后果：一旦被用于教育、新闻或决策支持系统，将导致系统性错误信息传播，破坏用户对 AI 系统的信任。

案例来源

PoisonGPT: How We Hid a Lobotomized LLM on Hugging Face to Spread Fake News

二、预训练模型迁移后门（Transferable Backdoors in Pre-trained Models）

威胁描述

攻击者在预训练阶段即向基础模型（如 BERT、XLNet）注入隐蔽后门。该后门在未经微调（Fine-Tuning）时可能不表现异常，但在用户基于该模型进行下游任务微调后，后门被激活——攻击者只需在输入中加入特定触发词（trigger），即可操控模型输出（如强制分类为“正面”或“无毒”）。

威胁场景

开发者广泛使用来自不可信渠道的预训练模型作为迁移学习起点；
企业或研究机构直接加载公开权重进行微调，缺乏对预训练模型完整性的验证；
模型供应链缺乏可追溯性（无法验证训练数据、算法、权重生成过程）。

威胁触发条件

预训练模型已被注入后门；
用户在下游任务中对该模型进行微调，且未执行后门检测或净化。

缓解措施（管理层面）

严格执行模型引入规范：所有预训练模型需通过公司规定的第三方模型准入流程，包括来源验证、哈希校验、行为审计；
优先选用可信厂商模型：如 Hugging Face 官方认证、厂商官方发布（如 Google、Meta、Microsoft）的模型；
考虑使用模型血缘（Provenance）工具：如未来支持 AICert 等提供密码学证明的模型身份绑定方案。

威胁案例：可迁移的通用后门攻击

案例摘要

多项研究证实，预训练模型中的后门可在微调后跨任务、跨模型持续存在：

《Backdoor Pre-trained Models Can Transfer to All》（arXiv:2111.00197）
- 提出一种新型后门攻击方法：将触发输入直接映射到预训练模型的固定输出表示空间（如 BERT 的 [CLS] 向量）；
- 无需了解下游任务细节，后门即可在文本分类、命名实体识别等多种任务中生效；
- 在 BERT、XLNet、BART 等主流模型上均验证成功，具备高度泛化能力。
《Weight Poisoning Attacks on Pre-trained Models》（arXiv:2004.06660）
- 提出 Weight Poisoning 攻击：通过 Embedding Surgery + RIPPLe 正则化，在预训练权重中注入脆弱点；
- 微调后，攻击者仅需插入任意关键词（如“###”），即可操控模型预测结果；
- 在情感分析、毒性检测、垃圾邮件识别等任务中实现 >90% 的后门激活成功率。
早期奠基工作：
- Yao et al.《Latent Backdoor Attacks on Deep Neural Networks》（CCS 2019）首次揭示 DNN 中潜伏后门可在迁移学习中激活。

核心风险：由于当前模型分发缺乏可验证的血缘（provenance），攻击者可大规模污染预训练模型生态，导致“一次污染，全域受害”。

案例来源

Y. Yao, H. Li. Latent Backdoor Attacks on Deep Neural Networks. CCS 2019.
→ http://people.cs.uchicago.edu/~ravenben/publications/pdf/pbackdoor-ccs19.pdf
Shen L, Ji S, Zhang X, et al. Backdoor Pre-trained Models Can Transfer to All. arXiv:2111.00197.
→ https://arxiv.org/abs/2111.00197
Keita Kurita, Paul Michel, Graham Neubig. Weight Poisoning Attacks on Pre-trained Models. arXiv:2004.06660.
→ https://arxiv.org/abs/2004.06660

总结与建议

攻击类型	核心机制	防御难点	推荐对策
开源模型后门	直接篡改权重，伪造模型身份	模型行为高度正常，仅特定输入触发错误	严格来源验证 + 模型行为监控 + 使用模型血缘工具
预训练迁移后门	在预训练阶段植入潜伏后门，微调后激活	后门与任务无关，泛化性强	禁用不可信预训练模型 + 微调前执行后门检测

趋势警示：随着 LLM 开源生态繁荣，模型供应链已成为新型攻击面。建议将模型来源可信度、权重完整性、输出可审计性纳入 AI 安全架构核心要求。未来应推动 AI Bill of Materials（AI-BOM）与密码学模型身份绑定等基础设施建设。

posted @ 2025-12-02 18:51 bonelee 阅读(4) 评论(0) 收藏举报

刷新页面返回顶部

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

大模型安全：供应链攻击——开源模型后门与预训练模型迁移后门

大模型安全：供应链攻击——开源模型后门与预训练模型迁移后门

一、开源模型后门（Poisoned Open-Source Models）

威胁描述

威胁场景

威胁触发条件

缓解措施（管理层面）

威胁案例：PoisonGPT —— 伪造历史事实的“可信”模型

案例摘要

案例来源

二、预训练模型迁移后门（Transferable Backdoors in Pre-trained Models）

威胁描述

威胁场景

威胁触发条件

缓解措施（管理层面）

威胁案例：可迁移的通用后门攻击

案例摘要

案例来源

总结与建议

公告