随笔档案「2025年9月11日」：AdvUnlearn阅读笔记：基于对抗训练的扩散模型鲁棒概念擦除 ... - 永是珞珈一恐龙

2025年9月11日

摘要：一、研究背景与核心问题扩散模型（DMs）在文本到图像生成领域取得显著成功，但存在生成有害内容（如NSFW图像）和侵犯版权等安全风险。机器遗忘（概念擦除）技术旨在缓解这些风险，却易受对抗性提示攻击——通过对输入提示进行微小扰动，可使已完成概念擦除的扩散模型重新生成需擦除的内容（如裸体图像）。核心研阅读全文

posted @ 2025-09-11 21:20 永是珞珈一恐龙阅读(175) 评论(0) 推荐(0)

dinosauria

公告