摘要: RAG 相关的攻击模式 的系统性分类与说明: 一、直接出现在您清单中的 RAG 攻击 ✅ 1. RAG 数据投毒(RAG Data Poisoning) 描述:攻击者向 RAG 系统的检索知识库(如企业文档、FAQ、PDF、数据库)中注入虚假、误导性或恶意内容。 后果:当用户提问相关话题时,RAG 阅读全文
posted @ 2025-12-02 21:24 bonelee 阅读(7) 评论(0) 推荐(0)
摘要: 一、直接涉及 用户隐私/个人信息泄露 的攻击模式 ✅ 1. 训练数据重构(Training Data Reconstruction) 描述:攻击者通过模型输出或中间状态,反向推断出原始训练数据中的具体样本(如用户聊天记录、医疗记录、身份证号等)。 典型技术:成员推理攻击(Membership Inf 阅读全文
posted @ 2025-12-02 21:01 bonelee 阅读(4) 评论(0) 推荐(0)
摘要: “模型盗窃” 的攻击模式有以下 3 项: ✅ 1. GPU内存窃取(GPU Memory Theft) 描述:攻击者利用共享 GPU 环境(如云服务器、多租户容器),从 GPU 显存中直接读取正在推理或训练的模型权重、中间激活值或嵌入向量。 技术基础:依赖硬件隔离缺失(如 LeftoverLocal 阅读全文
posted @ 2025-12-02 20:51 bonelee 阅读(5) 评论(0) 推荐(0)
摘要: 结合GPU/NPU硬件特性和多租户(multi-tenant)环境(如云平台、容器、共享设备)的上下文,以下攻击模式明确涉及GPU/NPU或多租户层面: ✅ 1. 共享GPU本地内存泄露(Shared GPU Local Memory Leakage) 归类:AI供应链攻击(6项之一) 关联硬件:G 阅读全文
posted @ 2025-12-02 19:50 bonelee 阅读(1) 评论(0) 推荐(0)
摘要: 大模型安全:供应链攻击——开源模型后门与预训练模型迁移后门 一、开源模型后门(Poisoned Open-Source Models) 威胁描述 攻击者篡改开源大语言模型(LLM)的权重,并将其上传至主流模型平台(如 Hugging Face),通过与原始模型高度相似的命名、描述或组织归属(如拼写仿 阅读全文
posted @ 2025-12-02 18:51 bonelee 阅读(4) 评论(0) 推荐(0)
摘要: 大模型安全:共享 GPU 本地内存泄露(LeftoverLocals) 威胁描述 在某些 GPU 架构中,每个计算单元(Compute Unit)都配备专属的私有本地内存(local memory)。若 GPU 在进程结束后未自动清除该本地内存中的数据,则攻击者在后续使用同一计算单元的新进程中,可直 阅读全文
posted @ 2025-12-02 18:45 bonelee 阅读(6) 评论(0) 推荐(0)
摘要: 大模型安全:敏感信息泄露 1. 训练数据重构(Training Data Extraction) 项目 内容 威胁描述 攻击者通过构造特殊输入并反复查询模型,诱导其输出训练集中存在的原始样本(如个人照片、证件号、文本片段),从而实现对训练数据的重构,造成隐私泄露。 威胁场景 模型允许用户多次提交输入 阅读全文
posted @ 2025-12-02 18:35 bonelee 阅读(30) 评论(0) 推荐(0)
摘要: 大模型安全:越狱攻击(Jailbreak Attacks) 1. 威胁概览 项目 内容 威胁名称 越狱攻击(Jailbreak) 核心机制 攻击者通过篡改用户提示(Prompt),如编码转换、添加误导性前缀、角色扮演、上下文污染等方式,绕过模型的安全对齐机制、输入/输出风控系统,诱导模型执行禁止操作 阅读全文
posted @ 2025-12-02 18:13 bonelee 阅读(32) 评论(0) 推荐(0)
摘要: 大模型安全:提示注入(Prompt Injection) 1. 图片提示注入(Multimodal Prompt Injection) 项目 内容 威胁描述 攻击者在图像/视频中嵌入可见或隐藏文字(如白色小字、OCR可读文本),诱导多模态大模型优先遵循图像中的指令,而非用户原始提示,从而执行非预期操 阅读全文
posted @ 2025-12-02 18:00 bonelee 阅读(15) 评论(0) 推荐(0)
摘要: AI Agent 安全:生成内容不可追溯(水印窃取与擦除) 1. 威胁概览 项目 内容 威胁名称 生成内容不可追溯(水印窃取与擦除) 威胁类型 隐私与溯源机制绕过 核心机制 攻击者通过多次查询带水印的 AI 系统,逆向推断水印算法或密钥,并据此移除或伪造水印,使生成内容失去可追溯性。 2. 威胁描述 阅读全文
posted @ 2025-12-02 17:16 bonelee 阅读(4) 评论(0) 推荐(0)
摘要: AI Agent 安全:RAG 数据投毒 1. 威胁概览 项目 内容 威胁名称 RAG 数据投毒(含对抗性自复制 Prompt 蠕虫) 威胁类型 数据污染 + 行为劫持 + 蠕虫式传播 核心机制 攻击者通过向 RAG 知识库或 Agent 输入中注入恶意提示或文本,诱导 LLM 生成攻击者指定的输出 阅读全文
posted @ 2025-12-02 17:11 bonelee 阅读(11) 评论(0) 推荐(0)
摘要: AI Agent 安全:MCP 工具相关安全威胁 编号 威胁类别 具体威胁描述 风险场景说明 1 MCP工具本身缺陷 攻击者可通过提示注入(Prompt Injection)利用AI Agent调用的MCP工具中存在的用户鉴权漏洞、操作权限过大等安全问题,实施未授权操作或远程代码执行等攻击。 AI 阅读全文
posted @ 2025-12-02 17:01 bonelee 阅读(14) 评论(0) 推荐(0)
摘要: AI Agent 安全:输入操纵攻击(Input Manipulation Attacks) 威胁一:资源滥用与账单欺诈(Prompt-Induced Resource Exhaustion) 威胁描述 攻击者通过精心构造的恶意提示(Prompt),诱导具备 外部服务调用能力 的 AI Agent 阅读全文
posted @ 2025-12-02 16:53 bonelee 阅读(3) 评论(0) 推荐(0)
摘要: AI Agent 安全:非预期远程代码执行(RCE)与代码注入攻击 威胁描述 具备工具调用(Tool Use) 和 函数执行(Function Calling) 能力的 AI Agent,在处理用户输入时若缺乏安全过滤,可能被攻击者通过 直接或间接提示注入(Prompt Injection) 操纵, 阅读全文
posted @ 2025-12-02 16:52 bonelee 阅读(4) 评论(0) 推荐(0)
摘要: 大模型安全:模型窃取(Model Extraction) 威胁一:嵌入层参数窃取(Embedding Layer Extraction) 威胁描述 攻击者在完全黑盒(无内部结构或训练数据)的情况下,通过向大语言模型 API 发送特殊构造的文本输入(如随机词序列),并分析返回的输出 logits 或概 阅读全文
posted @ 2025-12-02 16:45 bonelee 阅读(7) 评论(0) 推荐(0)
摘要: RAG 数据泄露风险(Retrieval-Augmented Generation Data Exposure) 威胁描述 在基于检索增强生成(RAG)架构的 AI 系统中,向量数据库或检索库通常存储大量敏感信息,包括: 用户隐私数据(如对话历史、身份信息); 企业商业机密(如内部文档、合同、源码) 阅读全文
posted @ 2025-12-02 16:40 bonelee 阅读(4) 评论(0) 推荐(0)
摘要: 大模型安全:易受攻击和过时的推理组件 威胁描述 攻击者可利用大模型推理组件、框架或服务中存在的安全漏洞(如未授权访问、远程代码执行等),实现以下高危操作: 窃取用户敏感数据(如对话内容、身份信息); 执行任意恶意代码; 篡改模型推理结果(如误导性输出、定向错误); 完整窃取 AI 模型(知识产权泄露 阅读全文
posted @ 2025-12-02 16:38 bonelee 阅读(0) 评论(0) 推荐(0)
摘要: 安全大模型的部署环境威胁 威胁一:云平台漏洞导致模型篡改与凭据盗用 威胁描述 攻击者利用托管大模型的云平台(自研或第三方)漏洞,实现: 篡改模型文件,植入后门或恶意代码; 窃取模型中的私有数据(如训练数据、业务逻辑); 盗用用户访问凭据,冒用身份调用模型服务,导致账单欺诈(如每日消费超 4.6 万美 阅读全文
posted @ 2025-12-02 16:34 bonelee 阅读(10) 评论(0) 推荐(0)
摘要: 算力集群互联协议认证缺失导致横向越权攻击 威胁描述 在 AI 算力集群中,CPU、NPU 等异构计算单元通常通过高性能互联协议(如 HCCS、UB 等)进行组网,以实现低延迟、高带宽的数据传输。若这些互联协议未启用或未正确配置认证与授权机制(如 token 验证、访问控制),则一旦单个设备被攻破或恶 阅读全文
posted @ 2025-12-02 16:27 bonelee 阅读(0) 评论(0) 推荐(0)
摘要: AI 系统配置缺陷导致模型与数据泄露 威胁描述 AI 系统在部署、推理或云平台运行过程中,若存在安全配置缺陷(如未授权访问、弱访问控制、明文存储等),可能导致以下风险: 模型文件、训练数据、日志、密钥等敏感资产泄露; 模型被篡改或替换,引发后门、投毒等攻击; 服务可用性受损(如资源被滥用、服务被接管 阅读全文
posted @ 2025-12-02 16:24 bonelee 阅读(5) 评论(0) 推荐(0)
摘要: 模型文件篡改投毒(Model File Tampering / Model Poisoning via File Modification) 威胁描述 攻击者可在不显著影响模型正常功能的前提下,通过直接篡改模型文件(如修改权重、结构或嵌入恶意逻辑),向模型中注入后门、恶意代码或定向错误行为。 被篡改 阅读全文
posted @ 2025-12-02 16:18 bonelee 阅读(3) 评论(0) 推荐(0)
摘要: 威胁描述 许多大模型文件采用序列化格式存储,加载过程中需进行反序列化操作。若代码实现中使用了不安全的反序列化方法,且攻击者能够控制模型文件内容,则可能触发反序列化漏洞,导致远程代码执行(RCE),严重危害AI系统安全。 以 PyTorch 为例: 使用 torch.load() 加载模型时,若未采取 阅读全文
posted @ 2025-12-02 14:55 bonelee 阅读(6) 评论(0) 推荐(0)
摘要: 威胁描述 攻击者在微调数据中加入极少量预训练数据中的个人可识别信息(PII),可以加剧微调后模型的PII数据泄露率。 威胁场景 1. 允许用户上传自定义数据集对预训练模型进行微调,并可以使用微调后的模型。 威胁触发条件 1.攻击者具备访问模型微调API或能力; 2.攻击者可以控制部分微调数据。 缓解 阅读全文
posted @ 2025-12-02 14:48 bonelee 阅读(0) 评论(0) 推荐(0)