大模型安全:大模型后门攻击
模型文件篡改投毒(Model File Tampering / Model Poisoning via File Modification)
威胁描述
攻击者可在不显著影响模型正常功能的前提下,通过直接篡改模型文件(如修改权重、结构或嵌入恶意逻辑),向模型中注入后门、恶意代码或定向错误行为。
- 被篡改的模型在常规输入下表现正常;
- 但在特定触发条件(trigger) 下,会输出攻击者预设的错误结果(如错误分类、生成有害内容、执行恶意代码等);
- 攻击具有高度隐蔽性,难以通过常规功能测试发现。
威胁场景
- 使用不可信第三方模型:从开源平台、社区或非官方渠道下载预训练模型,且未验证其完整性或来源可信性;
- 边缘/终端设备部署:模型部署在物理可接触的设备(如手机、IoT 设备、车载系统)上,攻击者可提取、篡改模型文件,并在无完整性校验机制的情况下重新加载。
威胁触发条件
需同时满足以下两项条件:
- 攻击者具备模型文件的读写权限(如通过物理接触、供应链投毒、中间人攻击等手段获取并篡改模型);
- AI 系统缺乏对模型来源与完整性的校验机制,导致被篡改的模型被正常加载和执行。
缓解措施
技术措施
- 模型完整性校验
- 加载模型前验证其 数字签名 或 哈希值(如 SHA-256),确保与官方发布版本一致;
- 推荐使用 可信加载机制(如 PyTorch 的
weights_only=True配合安全格式)。
- 高价值模型专项防护
- 对核心模型实施 加密存储、运行时保护(如内存加密、防调试)等措施,防止模型被窃取或逆向。
管理措施
- 严格管控模型来源
- 仅从官方或可信渠道获取第三方/开源模型;
- 建立内部模型仓库,统一审核与分发。
威胁案例
案例一:DeepPayload —— 基于逆向工程的黑盒后门注入
- 来源:arXiv:2101.06896
- 攻击方法:
- 对已编译的 DNN 模型进行反汇编,还原为数据流图;
- 在图中注入恶意 payload,包含:
- Trigger detector:识别输入中是否含特定触发信号;
- Conditional module:若检测到 trigger,则替换原始输出为攻击者指定结果;
- 重新编译生成被篡改模型,可直接替换原模型。
- 效果:
- 后门触发成功率 93.5%;
- 推理延迟增加 <2ms,准确率下降 ≤1.4%;
- 在 54 个 Google Play 应用中发现可被此类攻击利用的漏洞。
案例二:腾讯朱雀实验室 —— 神经元级后门植入
- 来源:百度百家号(2020)
- 攻击方法:
- 利用启发式算法分析模型各层神经元对后门行为的敏感度;
- 直接修改模型文件中的权重参数,精准操控少数关键神经元;
- 无需重新训练,即可在模型中植入后门。
- 效果:
- 模型正常功能准确率仅下降 ~2%;
- 在 MNIST、CIFAR-10 等数据集上均验证成功;
- 攻击更贴近实战,具备高隐蔽性与低开销特点。
总结:模型文件不仅是“数据”,更是可被武器化的“代码载体”。防御此类攻击的关键在于打破“模型即静态数据”的认知误区,通过 完整性校验 + 可信加载 + 来源管控 构建纵深防御体系。

浙公网安备 33010602011771号