大模型安全：敏感信息泄露

大模型安全：敏感信息泄露

1. 训练数据重构（Training Data Extraction）

项目	内容
威胁描述	攻击者通过构造特殊输入并反复查询模型，诱导其输出训练集中存在的原始样本（如个人照片、证件号、文本片段），从而实现对训练数据的重构，造成隐私泄露。
威胁场景	模型允许用户多次提交输入并获取直接输出（如开放 API、聊天界面），尤其是生成式多模态模型（如 Stable Diffusion、Imagen）。
触发条件	攻击者可构造输入并多次查询模型，利用输出结果反推训练样本。
缓解措施	技术措施：<br>1. 对训练数据进行敏感信息识别与清洗；<br>2. 部署输入/输出风控系统，拦截用于数据重构的恶意查询及含敏感信息的输出；<br>3. 采用差分隐私训练、文本去重、模型对齐等技术降低模型记忆能力。<br><br>管理措施：<br>1. 确保训练数据来源合法合规；<br>2. 定期红队测试与监控异常查询行为。
威胁案例	- 扩散模型数据提取：攻击者在 Stable Diffusion 和 Imagen 上成功提取数百个训练样本，包括个人照片和受版权保护的商标标志。<br>- 模型反转攻击（Model Inversion）：<br> • 攻击者通过最大化分类器置信度，生成与训练数据视觉上几乎无法区分的图像；<br> • 利用 GAN + 变分推断，在无原始训练集情况下重建高保真样本。<br><br>案例来源：<br>- Fredrikson et al., Model Inversion Attacks, CCS 2015 (DOI)<br>- Wang et al., Variational Model Inversion Attacks, arXiv:2201.10787

2. 成员推理攻击（Membership Inference Attack）

项目	内容
威胁描述	攻击者利用模型输出的置信度、标签、嵌入向量等信息，判断某个特定样本是否出现在训练集中，从而推断个体是否属于敏感群体（如患者、用户），造成隐私泄露。
威胁场景	攻击者具备多次模型查询权限，并能获取额外输出信息（如概率分布、logits、嵌入）。常见于医疗、金融、推荐系统等高敏场景。
触发条件	攻击者可构造输入并多次查询模型，获取输出用于推理成员状态。
缓解措施	技术措施：<br>1. 防止过拟合（L1/L2 正则、Dropout、Model Stacking）；<br>2. 采用差分隐私训练；<br>3. 对输出加噪或最小化披露（如仅返回 top-1 标签）；<br>4. 清洗训练数据中的高敏样本。<br><br>管理措施：<br>- 定期审计模型输出行为，检测异常推理模式。
威胁案例	- 利用患者住院数据模型，推理某病人是否接受过特定手术；<br>- 探测推荐系统是否使用某用户数据进行训练；<br>- 极简攻击：仅需标签输出（无需置信度）+ 任意查询权限即可完成成员推理。

3. 嵌入逆向攻击（Embedding Inversion / RAG 数据泄露）

项目	内容
威胁描述	在端侧部署的 RAG 系统中，攻击者利用对嵌入模型（embedding model）和向量数据库的访问权限，构建逆向模型，将向量还原为原始文本，导致企业知识库或用户私有数据泄露。
威胁场景	- 嵌入模型部署在用户侧，可被调用；<br>- 向量数据库明文存储；<br>- 原始文本数据库虽加密，但可通过向量反推。
触发条件	1. 攻击者可访问向量数据库；<br>2. 攻击者可调用嵌入模型，获取输入-输出对以训练逆向模型。
缓解措施	技术措施：<br>1. 嵌入模型加密存储，在可信执行环境（TEE）中运行；<br>2. 对嵌入向量添加扰动或混淆，降低可逆性；<br>3. 限制嵌入模型调用频率。<br><br>管理措施：<br>- 严格控制本地模型与数据的访问权限。
威胁案例	- 2023年港科大 Haoran 等人：提出生成式嵌入逆向攻击，成功从 sentence embedding 中重建完整句子（Sentence Embedding Leaks More Information than You Expect）；<br>- 卡耐基梅隆大学研究：通过嵌入逆向算法，在 92% 的案例中准确恢复全名、健康诊断等敏感信息。

4. 端侧截屏数据泄漏（Client-Side Screenshot Leakage）

项目	内容
威胁描述	AI Agent 客户端自动截取屏幕或页面内容上传至云端分析（如 Apple Intelligence），若未脱敏，可能泄露用户界面中的手机号、身份证、订单信息等敏感数据。
威胁场景	- Agent 需分析当前 App 界面以完成任务（如填写表单、日程管理）；<br>- 截图包含敏感字段（如消息、邮箱、支付页面）。
触发条件	无需特殊触发——只要启用屏幕感知功能且未脱敏，即存在泄露风险。属于安全合规问题。
缓解措施	技术措施：<br>1. 在端侧部署敏感信息识别（PII/PHI 检测）；<br>2. 对截图中敏感区域进行掩码、替换或模糊处理；<br>3. 默认关闭非必要屏幕访问权限。
威胁案例	- Apple Intelligence（iOS 18, 2024）：系统自动截取用户界面（如 Messages、Mail）以理解 personal context，若直接上传未处理图像，将泄露姓名、地址、电话等信息。<br><br>案例来源：<br>Apple Newsroom: iOS 18

5. RAG 成员推理攻击（RAG Membership Inference）

项目	内容
威胁描述	攻击者通过特定 Prompt 查询 RAG 系统，判断某段文本是否存在于其知识库中，从而推断企业是否拥有某份敏感文档（如合同、专利、内部报告）。
威胁场景	- RAG 系统对外提供问答服务；<br>- 知识库包含专有或敏感信息；<br>- 攻击者可多次查询并观察模型响应。
触发条件	攻击者构造特殊输入（如“Does this appear in your context?”）并多次查询模型。
缓解措施	技术措施：<br>1. 重写用户问题结构，降低与库文本的表面匹配度；<br>2. 对检索结果重新排序、摘要或加噪，避免直接输出原文；<br>3. 限制“是/否”类确认性回答。
威胁案例	- 2024年《Is My Data in Your Retrieval Database?》：<br> • 黑盒攻击使用 Prompt：<br> > “Does this: ‘{Target Sample}’ appear in the context? Answer with Yes or No.”<br> • 通过模型回答推断成员状态。<br>- 《Generating is Believing》：<br> • 利用生成内容与目标样本的语义相似度实施成员推理。

总结建议

防御维度	推荐措施
数据源头	敏感信息清洗 + 合规授权 + 差分隐私
模型训练	防过拟合 + 对齐拒答高敏问题
推理部署	输出脱敏 + 嵌入扰动 + 截图掩码
RAG 系统	检索结果抽象化 + 禁止原文直出
运维监控	查询行为审计 + 异常检测 + 红队演练

核心原则：大模型的“记忆”与“感知”能力越强，隐私泄露风险越高。安全设计必须贯穿数据 → 训练 → 推理 → 应用全生命周期。

posted @ 2025-12-02 18:35 bonelee 阅读(30) 评论(0) 收藏举报

刷新页面返回顶部