AI Agent 安全：生成内容不可追溯（水印窃取与擦除）

项目	内容
威胁名称	生成内容不可追溯（水印窃取与擦除）
威胁类型	隐私与溯源机制绕过
核心机制	攻击者通过多次查询带水印的 AI 系统，逆向推断水印算法或密钥，并据此移除或伪造水印，使生成内容失去可追溯性。

攻击者通过向 AI 系统反复提交精心构造的输入，收集大量带水印的输出响应，利用统计分析或优化方法（如混合整数规划）逆向还原水印生成机制及密钥，进而清除或篡改水印，导致 AI 生成内容无法被有效溯源或追踪。

条件编号	描述
T1	AI 系统启用了文本水印功能（如基于 token 分布扰动的水印）；
T2	攻击者可向系统提交大量可控输入并获取带水印的输出；
T3	水印机制缺乏抗逆向设计（如固定密钥、确定性策略）。

研究团队：ETH Zurich Martin Vechev 教授、悉尼大学 Zhang Zhaoxi 等
论文标题：
- Watermark Stealing in Large Language Models
- Large Language Model Watermark Stealing With Mixed Integer Programming
发表时间：2024 年
核心发现：
- 提出通过黑盒查询 + 优化算法（如混合整数规划, MIP）从 LLM 输出中窃取水印密钥；
- 成功在多种主流水印方案（如 Aaronson 系水印）上实现高精度密钥恢复；
- 可进一步擦除水印或伪造他人水印，破坏内容溯源机制。
论文链接：https://arxiv.org/pdf/2402.19361

总结：当前主流 LLM 水印方案在开放 API 场景下面临严重的逆向与擦除风险。仅依赖水印无法保障生成内容的可追溯性，需结合访问控制、动态密钥、行为审计等纵深防御策略。

posted @ 2025-12-02 17:16 bonelee 阅读(25) 评论(0) 收藏举报

刷新页面返回顶部

将者，智、信、仁、勇、严也。