大模型安全:敏感信息泄露

大模型安全:敏感信息泄露


 

1. 训练数据重构(Training Data Extraction)

 
项目
内容
威胁描述
攻击者通过构造特殊输入并反复查询模型,诱导其输出训练集中存在的原始样本(如个人照片、证件号、文本片段),从而实现对训练数据的重构,造成隐私泄露。
威胁场景
模型允许用户多次提交输入并获取直接输出(如开放 API、聊天界面),尤其是生成式多模态模型(如 Stable Diffusion、Imagen)。
触发条件
攻击者可构造输入并多次查询模型,利用输出结果反推训练样本。
缓解措施
技术措施:<br>1. 对训练数据进行敏感信息识别与清洗;<br>2. 部署输入/输出风控系统,拦截用于数据重构的恶意查询及含敏感信息的输出;<br>3. 采用差分隐私训练、文本去重、模型对齐等技术降低模型记忆能力。<br><br>管理措施:<br>1. 确保训练数据来源合法合规;<br>2. 定期红队测试与监控异常查询行为。
威胁案例
- 扩散模型数据提取:攻击者在 Stable Diffusion 和 Imagen 上成功提取数百个训练样本,包括个人照片和受版权保护的商标标志。<br>- 模型反转攻击(Model Inversion):<br> • 攻击者通过最大化分类器置信度,生成与训练数据视觉上几乎无法区分的图像;<br> • 利用 GAN + 变分推断,在无原始训练集情况下重建高保真样本。<br><br>案例来源:<br>- Fredrikson et al., Model Inversion Attacks, CCS 2015 (DOI)<br>- Wang et al., Variational Model Inversion Attacks, arXiv:2201.10787

 

2. 成员推理攻击(Membership Inference Attack)

 
项目
内容
威胁描述
攻击者利用模型输出的置信度、标签、嵌入向量等信息,判断某个特定样本是否出现在训练集中,从而推断个体是否属于敏感群体(如患者、用户),造成隐私泄露。
威胁场景
攻击者具备多次模型查询权限,并能获取额外输出信息(如概率分布、logits、嵌入)。常见于医疗、金融、推荐系统等高敏场景。
触发条件
攻击者可构造输入并多次查询模型,获取输出用于推理成员状态。
缓解措施
技术措施:<br>1. 防止过拟合(L1/L2 正则、Dropout、Model Stacking);<br>2. 采用差分隐私训练;<br>3. 对输出加噪或最小化披露(如仅返回 top-1 标签);<br>4. 清洗训练数据中的高敏样本。<br><br>管理措施:<br>- 定期审计模型输出行为,检测异常推理模式。
威胁案例
- 利用患者住院数据模型,推理某病人是否接受过特定手术;<br>- 探测推荐系统是否使用某用户数据进行训练;<br>- 极简攻击:仅需标签输出(无需置信度)+ 任意查询权限即可完成成员推理。

 

3. 嵌入逆向攻击(Embedding Inversion / RAG 数据泄露)

 
项目
内容
威胁描述
在端侧部署的 RAG 系统中,攻击者利用对嵌入模型(embedding model)和向量数据库的访问权限,构建逆向模型,将向量还原为原始文本,导致企业知识库或用户私有数据泄露。
威胁场景
- 嵌入模型部署在用户侧,可被调用;<br>- 向量数据库明文存储;<br>- 原始文本数据库虽加密,但可通过向量反推。
触发条件
1. 攻击者可访问向量数据库;<br>2. 攻击者可调用嵌入模型,获取输入-输出对以训练逆向模型。
缓解措施
技术措施:<br>1. 嵌入模型加密存储,在可信执行环境(TEE)中运行;<br>2. 对嵌入向量添加扰动或混淆,降低可逆性;<br>3. 限制嵌入模型调用频率。<br><br>管理措施:<br>- 严格控制本地模型与数据的访问权限。
威胁案例
- 2023年 港科大 Haoran 等人:提出生成式嵌入逆向攻击,成功从 sentence embedding 中重建完整句子(Sentence Embedding Leaks More Information than You Expect);<br>- 卡耐基梅隆大学研究:通过嵌入逆向算法,在 92% 的案例中准确恢复全名、健康诊断等敏感信息。

 

4. 端侧截屏数据泄漏(Client-Side Screenshot Leakage)

 
项目
内容
威胁描述
AI Agent 客户端自动截取屏幕或页面内容上传至云端分析(如 Apple Intelligence),若未脱敏,可能泄露用户界面中的手机号、身份证、订单信息等敏感数据。
威胁场景
- Agent 需分析当前 App 界面以完成任务(如填写表单、日程管理);<br>- 截图包含敏感字段(如消息、邮箱、支付页面)。
触发条件
无需特殊触发——只要启用屏幕感知功能且未脱敏,即存在泄露风险。属于安全合规问题
缓解措施
技术措施:<br>1. 在端侧部署敏感信息识别(PII/PHI 检测);<br>2. 对截图中敏感区域进行掩码、替换或模糊处理;<br>3. 默认关闭非必要屏幕访问权限。
威胁案例
- Apple Intelligence(iOS 18, 2024):系统自动截取用户界面(如 Messages、Mail)以理解 personal context,若直接上传未处理图像,将泄露姓名、地址、电话等信息。<br><br>案例来源:<br>Apple Newsroom: iOS 18

 

5. RAG 成员推理攻击(RAG Membership Inference)

 
项目
内容
威胁描述
攻击者通过特定 Prompt 查询 RAG 系统,判断某段文本是否存在于其知识库中,从而推断企业是否拥有某份敏感文档(如合同、专利、内部报告)。
威胁场景
- RAG 系统对外提供问答服务;<br>- 知识库包含专有或敏感信息;<br>- 攻击者可多次查询并观察模型响应。
触发条件
攻击者构造特殊输入(如“Does this appear in your context?”)并多次查询模型。
缓解措施
技术措施:<br>1. 重写用户问题结构,降低与库文本的表面匹配度;<br>2. 对检索结果重新排序、摘要或加噪,避免直接输出原文;<br>3. 限制“是/否”类确认性回答。
威胁案例
- 2024年《Is My Data in Your Retrieval Database?》:<br> • 黑盒攻击使用 Prompt:<br> > “Does this: ‘{Target Sample}’ appear in the context? Answer with Yes or No.”<br> • 通过模型回答推断成员状态。<br>- 《Generating is Believing》:<br> • 利用生成内容与目标样本的语义相似度实施成员推理。

 

总结建议

 
防御维度
推荐措施
数据源头
敏感信息清洗 + 合规授权 + 差分隐私
模型训练
防过拟合 + 对齐拒答高敏问题
推理部署
输出脱敏 + 嵌入扰动 + 截图掩码
RAG 系统
检索结果抽象化 + 禁止原文直出
运维监控
查询行为审计 + 异常检测 + 红队演练

核心原则:大模型的“记忆”与“感知”能力越强,隐私泄露风险越高。安全设计必须贯穿数据 → 训练 → 推理 → 应用全生命周期。

posted @ 2025-12-02 18:35  bonelee  阅读(30)  评论(0)    收藏  举报