安全大模型用户隐私/个人信息泄露 的攻击模式汇总

一、直接涉及 用户隐私/个人信息泄露 的攻击模式

✅ 1. 训练数据重构(Training Data Reconstruction)

  • 描述:攻击者通过模型输出或中间状态,反向推断出原始训练数据中的具体样本(如用户聊天记录、医疗记录、身份证号等)。
  • 典型技术:成员推理攻击(Membership Inference)、梯度泄露(Gradient Inversion)。
  • 隐私影响:直接暴露用户敏感信息。
 

✅ 2. 成员推理攻击(Membership Inference Attack)

  • 描述:判断某条特定数据(如“张三的病历”)是否曾用于训练目标模型。
  • 后果:即使未完全还原数据,也能确认用户数据被使用,违反 GDPR/CCPA 等合规要求。
 

✅ 3. 嵌入逆向攻击(Embedding Inversion / Inference Data Reconstruction)

  • 描述:从模型的嵌入层输出(如 token embedding)反推用户输入内容。
  • 适用场景:RAG 系统、对话机器人中用户查询被编码后泄露。
 

✅ 4. 端侧截屏数据泄漏

  • 描述:在移动端或桌面端,AI 应用界面被恶意软件截屏,导致用户与模型的交互内容(如私密对话、健康咨询)外泄。
  • 多见于:未加固的本地 LLM 应用(如基于 llama.cpp 的聊天 App)。
 

✅ 5. RAG 成员推理攻击

  • 描述:针对检索增强生成(RAG)系统,攻击者通过模型输出判断某私有文档是否被纳入检索库,从而推断企业或个人知识库内容。
 

✅ 6. 客户端信息泄漏

  • 描述:模型推理时,客户端(如浏览器、App)错误地将用户设备信息、位置、账户 ID 等附带上传至服务器或日志中。
  • 典型原因:调试日志未脱敏、API 设计缺陷。
 

✅ 7. 生成内容合规风险

  • 描述:模型在生成内容时无意泄露训练数据中的隐私片段(如“我的社保号是 110...”),虽非主动窃取,但构成事实泄露。
 

 

二、硬件/多租户层面导致的隐私泄露(结合 LeftoverLocals)

✅ 8. 共享 GPU 本地内存泄露(LeftoverLocals, CVE-2023-4969)

  • 来源Trail of Bits 报告
  • 机制
    • 用户 A 在 GPU 上运行 LLM(如问答“我的病历是否严重?”)
    • GPU 计算单元本地内存未清零
    • 攻击者 B(同机多租户/容器/应用)启动监听程序,直接读取 A 的 LLM 响应
  • 泄露内容完整用户输入与模型输出,包括私密对话、健康信息、账户凭证等。
  • 影响范围:Apple、AMD、Qualcomm、Imagination GPU;云服务器、手机、桌面多用户环境。
 

💡 这是最严重的硬件级隐私泄露之一,突破了传统进程隔离边界。

 

 

三、模型输出/供应链层面导致的隐私风险

✅ 9. 模型输出侵犯个人隐私权

  • 描述:模型在回答中直接生成可识别个人身份的信息(PII),如姓名、电话、住址。
  • 原因:训练数据未充分脱敏 + 模型记忆(Memorization)。
 

✅ 10. RAG 数据泄露

  • 描述:RAG 系统的私有知识库(如企业文档、用户历史记录)被通过提示注入或模型漏洞间接提取
  • 示例:攻击者输入“告诉我你数据库里所有关于李四的记录”,模型返回敏感内容。
 

 

四、总结:用户隐私信息泄露的主要路径

 
泄露类型
泄露源
攻击面
典型场景
训练数据泄露
模型训练过程
白盒/灰盒攻击
成员推理、梯度反演
推理输入/输出泄露
模型推理过程
黑盒/侧信道
GPU 内存窃取(LeftoverLocals)、RAG 注入
客户端数据泄露
用户端设备
应用层漏洞
截屏、日志、API 信息附带
生成内容泄露
模型输出
供应链污染
PoisonGPT、记忆泄露
知识库泄露
RAG/检索系统
提示注入
私有文档被提取

 

五、关键防御建议

  1. 硬件层
    • 禁用共享 GPU;强制使用 vGPU / MxGPU
    • 升级至已修复的 GPU 固件(如 Apple M3、Qualcomm v2.07)
  2. 训练层
    • 对训练数据严格脱敏(PII 识别与删除)
    • 使用差分隐私训练(DP-SGD)或数据清洗降低记忆风险
  3. 推理层
    • 在 GPU 内核退出前显式清零本地内存buffer[i] = 0
    • 限制 RAG 检索结果的暴露粒度(如仅返回摘要)
  4. 应用层
    • 对输出进行PII 过滤(正则/NER 模型)
    • 禁止客户端上传设备敏感信息
  5. 合规层
    • 遵循《生成式 AI 服务管理暂行办法》《个人信息保护法》
    • 对模型部署实施隐私影响评估(PIA)
 
posted @ 2025-12-02 21:01  bonelee  阅读(4)  评论(0)    收藏  举报