大模型安全:注入微调数据导致的训练数据重构

威胁描述

攻击者在微调数据中加入极少量预训练数据中的个人可识别信息(PII),可以加剧微调后模型的PII数据泄露率。

威胁场景
1. 允许用户上传自定义数据集对预训练模型进行微调,并可以使用微调后的模型。
 
威胁触发条件

1.攻击者具备访问模型微调API或能力; 2.攻击者可以控制部分微调数据。

缓解措施

技术措施: 1.微调数据清洗,避免用户提供的微调数据中包含个人信息; 2.模型鲁棒性训练。 管理措施: 1.对微调数据实施严格的访问控制。

 

特定微调数据增加了模型隐私泄漏概率
 
案例摘要

2023年,印第安纳大学Xiaoyi Chen等人指出在微调数据中加入极少量(~10条)包含个人可识别信息(PII)的预训练数据,微调后的模型的PII泄露率相较于预训练模型显著增加:The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks

案例分析
 
posted @ 2025-12-02 14:48  bonelee  阅读(0)  评论(0)    收藏  举报