大模型安全:安全配置错误导致敏感信息泄露

AI 系统配置缺陷导致模型与数据泄露

 

 

威胁描述

AI 系统在部署、推理或云平台运行过程中,若存在安全配置缺陷(如未授权访问、弱访问控制、明文存储等),可能导致以下风险:

  • 模型文件、训练数据、日志、密钥等敏感资产泄露
  • 模型被篡改或替换,引发后门、投毒等攻击;
  • 服务可用性受损(如资源被滥用、服务被接管);
  • 用户隐私数据外泄(如对话记录、身份信息)。
 

 

威胁场景

  1. 云化 AI 平台配置错误:MLflow、Kubeflow、TensorBoard、ClickHouse 等 AI 工具或数据库暴露于公网,未启用身份认证或访问控制;
  2. 模型客户端本地存储不当:大模型 App(如 ChatGPT 客户端)将用户对话以明文形式存储在终端设备(PC/手机)上;
  3. 推理服务 API 或前端接口缺乏防护:攻击者可通过公开接口直接访问后端资源。
 

 

威胁触发条件

需满足以下任一条件组合:

 

场景一:平台配置缺陷

  • 攻击者可访问 AI 系统的前端、API 或管理界面(如通过公网开放端口);
  • 系统未实施身份认证、访问控制或网络隔离。
 

场景二:客户端数据明文存储

  1. 模型客户端以明文形式将用户对话存储于本地设备;
  2. 该设备被恶意软件感染、物理窃取或遭远程入侵。
 

 

缓解措施

技术措施

  1. 严格访问控制
    • 所有 AI 平台(包括数据库、训练/推理服务)应部署在私有网络中;
    • 公网暴露的服务必须启用强身份认证(如 OAuth2、API Key + IP 白名单)最小权限原则
  2. 敏感数据保护
    • 模型文件、训练数据、日志等应加密存储,并定期审计访问日志;
    • 禁止在无认证情况下提供 SQL 查询、文件下载等高危接口。
  3. 客户端数据安全
    • 本地存储的用户对话应使用 设备级加密(如 iOS Keychain、macOS FileVault)
    • 避免以纯文本形式持久化敏感交互内容。
  4. 使用标准 IT 平台
    • 优先采用公司统一的安全合规云平台或容器化部署方案,避免自建高风险服务。
 

 

威胁案例

案例一:DeepSeek ClickHouse 数据库泄露(2025年1月)

  • 来源Wiz Research 报告
  • 问题
    • oauth2callback.deepseek.comdev.deepseek.com8123/9000 端口暴露 ClickHouse 数据库;
    • 无需认证即可通过 /play 接口执行任意 SQL 查询。
  • 泄露内容
    • 100 万条日志记录,包含:用户聊天内容、后端服务密钥、内部架构细节等高敏感信息。
  • 响应:Wiz 通报后,DeepSeek 立即修复。
 

 

案例二:MLflow/Kubeflow/TensorBoard 大规模暴露(2024年10月)

  • 来源安全内参
  • 研究者:Reddit 首席安全工程师 Charan Akiri
  • 问题
    • 全球约 5000 个 ML 平台实例因错误配置暴露于公网;
    • 未设访问控制,允许任意用户下载模型、训练数据、超参数,甚至启动新训练任务
  • 影响:包括瑞萨电子(Renesas)等大型企业受影响,部分平台可直接执行攻击者代码。
 

 

案例三:ChatGPT Mac 客户端明文存储对话(2024年)

  • 研究者:Pedro José Pereira Vieito(Swift 开发者)
  • 问题
    • OpenAI 官网提供的 ChatGPT Mac App 将用户对话以纯文本形式存储在本地;
    • 未使用系统级加密,也未上架 Mac App Store(绕过苹果安全审查)。
  • 风险:设备一旦被入侵,完整对话历史可被窃取,含个人信息、商业机密等。
 

 

总结:AI 系统的安全不仅在于模型本身,更在于全生命周期的部署与运行环境。从云平台配置到终端数据存储,任何环节的疏忽都可能成为攻击入口。“默认安全”应成为 AI 工程的首要原则

 
 
 
posted @ 2025-12-02 16:24  bonelee  阅读(5)  评论(0)    收藏  举报