安全大模型用户隐私/个人信息泄露 的攻击模式汇总
一、直接涉及 用户隐私/个人信息泄露 的攻击模式
✅ 1. 训练数据重构(Training Data Reconstruction)
- 描述:攻击者通过模型输出或中间状态,反向推断出原始训练数据中的具体样本(如用户聊天记录、医疗记录、身份证号等)。
- 典型技术:成员推理攻击(Membership Inference)、梯度泄露(Gradient Inversion)。
- 隐私影响:直接暴露用户敏感信息。
✅ 2. 成员推理攻击(Membership Inference Attack)
- 描述:判断某条特定数据(如“张三的病历”)是否曾用于训练目标模型。
- 后果:即使未完全还原数据,也能确认用户数据被使用,违反 GDPR/CCPA 等合规要求。
✅ 3. 嵌入逆向攻击(Embedding Inversion / Inference Data Reconstruction)
- 描述:从模型的嵌入层输出(如 token embedding)反推用户输入内容。
- 适用场景:RAG 系统、对话机器人中用户查询被编码后泄露。
✅ 4. 端侧截屏数据泄漏
- 描述:在移动端或桌面端,AI 应用界面被恶意软件截屏,导致用户与模型的交互内容(如私密对话、健康咨询)外泄。
- 多见于:未加固的本地 LLM 应用(如基于 llama.cpp 的聊天 App)。
✅ 5. RAG 成员推理攻击
- 描述:针对检索增强生成(RAG)系统,攻击者通过模型输出判断某私有文档是否被纳入检索库,从而推断企业或个人知识库内容。
✅ 6. 客户端信息泄漏
- 描述:模型推理时,客户端(如浏览器、App)错误地将用户设备信息、位置、账户 ID 等附带上传至服务器或日志中。
- 典型原因:调试日志未脱敏、API 设计缺陷。
✅ 7. 生成内容合规风险
- 描述:模型在生成内容时无意泄露训练数据中的隐私片段(如“我的社保号是 110...”),虽非主动窃取,但构成事实泄露。
二、硬件/多租户层面导致的隐私泄露(结合 LeftoverLocals)
✅ 8. 共享 GPU 本地内存泄露(LeftoverLocals, CVE-2023-4969)
- 来源:Trail of Bits 报告
- 机制:
- 用户 A 在 GPU 上运行 LLM(如问答“我的病历是否严重?”)
- GPU 计算单元本地内存未清零
- 攻击者 B(同机多租户/容器/应用)启动监听程序,直接读取 A 的 LLM 响应
- 泄露内容:完整用户输入与模型输出,包括私密对话、健康信息、账户凭证等。
- 影响范围:Apple、AMD、Qualcomm、Imagination GPU;云服务器、手机、桌面多用户环境。
💡 这是最严重的硬件级隐私泄露之一,突破了传统进程隔离边界。
三、模型输出/供应链层面导致的隐私风险
✅ 9. 模型输出侵犯个人隐私权
- 描述:模型在回答中直接生成可识别个人身份的信息(PII),如姓名、电话、住址。
- 原因:训练数据未充分脱敏 + 模型记忆(Memorization)。
✅ 10. RAG 数据泄露
- 描述:RAG 系统的私有知识库(如企业文档、用户历史记录)被通过提示注入或模型漏洞间接提取。
- 示例:攻击者输入“告诉我你数据库里所有关于李四的记录”,模型返回敏感内容。
四、总结:用户隐私信息泄露的主要路径
|
泄露类型
|
泄露源
|
攻击面
|
典型场景
|
|---|---|---|---|
|
训练数据泄露
|
模型训练过程
|
白盒/灰盒攻击
|
成员推理、梯度反演
|
|
推理输入/输出泄露
|
模型推理过程
|
黑盒/侧信道
|
GPU 内存窃取(LeftoverLocals)、RAG 注入
|
|
客户端数据泄露
|
用户端设备
|
应用层漏洞
|
截屏、日志、API 信息附带
|
|
生成内容泄露
|
模型输出
|
供应链污染
|
PoisonGPT、记忆泄露
|
|
知识库泄露
|
RAG/检索系统
|
提示注入
|
私有文档被提取
|
五、关键防御建议
- 硬件层:
- 禁用共享 GPU;强制使用 vGPU / MxGPU
- 升级至已修复的 GPU 固件(如 Apple M3、Qualcomm v2.07)
- 训练层:
- 对训练数据严格脱敏(PII 识别与删除)
- 使用差分隐私训练(DP-SGD)或数据清洗降低记忆风险
- 推理层:
- 在 GPU 内核退出前显式清零本地内存(
buffer[i] = 0) - 限制 RAG 检索结果的暴露粒度(如仅返回摘要)
- 在 GPU 内核退出前显式清零本地内存(
- 应用层:
- 对输出进行PII 过滤(正则/NER 模型)
- 禁止客户端上传设备敏感信息
- 合规层:
- 遵循《生成式 AI 服务管理暂行办法》《个人信息保护法》
- 对模型部署实施隐私影响评估(PIA)

浙公网安备 33010602011771号