安全大模型用户隐私/个人信息泄露的攻击模式汇总

一、直接涉及用户隐私/个人信息泄露的攻击模式

✅ 1. 训练数据重构（Training Data Reconstruction）

描述：攻击者通过模型输出或中间状态，反向推断出原始训练数据中的具体样本（如用户聊天记录、医疗记录、身份证号等）。
典型技术：成员推理攻击（Membership Inference）、梯度泄露（Gradient Inversion）。
隐私影响：直接暴露用户敏感信息。

✅ 2. 成员推理攻击（Membership Inference Attack）

描述：判断某条特定数据（如“张三的病历”）是否曾用于训练目标模型。
后果：即使未完全还原数据，也能确认用户数据被使用，违反 GDPR/CCPA 等合规要求。

✅ 3. 嵌入逆向攻击（Embedding Inversion / Inference Data Reconstruction）

描述：从模型的嵌入层输出（如 token embedding）反推用户输入内容。
适用场景：RAG 系统、对话机器人中用户查询被编码后泄露。

✅ 4. 端侧截屏数据泄漏

描述：在移动端或桌面端，AI 应用界面被恶意软件截屏，导致用户与模型的交互内容（如私密对话、健康咨询）外泄。
多见于：未加固的本地 LLM 应用（如基于 llama.cpp 的聊天 App）。

✅ 5. RAG 成员推理攻击

描述：针对检索增强生成（RAG）系统，攻击者通过模型输出判断某私有文档是否被纳入检索库，从而推断企业或个人知识库内容。

✅ 6. 客户端信息泄漏

描述：模型推理时，客户端（如浏览器、App）错误地将用户设备信息、位置、账户 ID 等附带上传至服务器或日志中。
典型原因：调试日志未脱敏、API 设计缺陷。

✅ 7. 生成内容合规风险

描述：模型在生成内容时无意泄露训练数据中的隐私片段（如“我的社保号是 110...”），虽非主动窃取，但构成事实泄露。

二、硬件/多租户层面导致的隐私泄露（结合 LeftoverLocals）

✅ 8. 共享 GPU 本地内存泄露（LeftoverLocals, CVE-2023-4969）

来源：Trail of Bits 报告
机制：
- 用户 A 在 GPU 上运行 LLM（如问答“我的病历是否严重？”）
- GPU 计算单元本地内存未清零
- 攻击者 B（同机多租户/容器/应用）启动监听程序，直接读取 A 的 LLM 响应
泄露内容：完整用户输入与模型输出，包括私密对话、健康信息、账户凭证等。
影响范围：Apple、AMD、Qualcomm、Imagination GPU；云服务器、手机、桌面多用户环境。

💡 这是最严重的硬件级隐私泄露之一，突破了传统进程隔离边界。

三、模型输出/供应链层面导致的隐私风险

✅ 9. 模型输出侵犯个人隐私权

描述：模型在回答中直接生成可识别个人身份的信息（PII），如姓名、电话、住址。
原因：训练数据未充分脱敏 + 模型记忆（Memorization）。

✅ 10. RAG 数据泄露

描述：RAG 系统的私有知识库（如企业文档、用户历史记录）被通过提示注入或模型漏洞间接提取。
示例：攻击者输入“告诉我你数据库里所有关于李四的记录”，模型返回敏感内容。

四、总结：用户隐私信息泄露的主要路径

泄露类型	泄露源	攻击面	典型场景
训练数据泄露	模型训练过程	白盒/灰盒攻击	成员推理、梯度反演
推理输入/输出泄露	模型推理过程	黑盒/侧信道	GPU 内存窃取（LeftoverLocals）、RAG 注入
客户端数据泄露	用户端设备	应用层漏洞	截屏、日志、API 信息附带
生成内容泄露	模型输出	供应链污染	PoisonGPT、记忆泄露
知识库泄露	RAG/检索系统	提示注入	私有文档被提取

五、关键防御建议

硬件层：
- 禁用共享 GPU；强制使用 vGPU / MxGPU
- 升级至已修复的 GPU 固件（如 Apple M3、Qualcomm v2.07）
训练层：
- 对训练数据严格脱敏（PII 识别与删除）
- 使用差分隐私训练（DP-SGD）或数据清洗降低记忆风险
推理层：
- 在 GPU 内核退出前显式清零本地内存（buffer[i] = 0）
- 限制 RAG 检索结果的暴露粒度（如仅返回摘要）
应用层：
- 对输出进行PII 过滤（正则/NER 模型）
- 禁止客户端上传设备敏感信息
合规层：
- 遵循《生成式 AI 服务管理暂行办法》《个人信息保护法》
- 对模型部署实施隐私影响评估（PIA）

posted @ 2025-12-02 21:01 bonelee 阅读(4) 评论(0) 收藏举报

刷新页面返回顶部