文生图安全生成论文原理笔记
Safe Latent Diffusion
Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models
这篇论文提出的安全潜在扩散模型(Safe Latent Diffusion, SLD) 核心是通过数学调整扩散过程中的噪声预测,在不额外训练的情况下抑制不当内容生成。其数学原理基于扩散模型的基本框架、无分类器引导(classifier-free guidance),并引入了安全引导项(safety guidance term)和动量机制,以下是详细阐述:
一、扩散模型的基础数学框架
扩散模型(Diffusion Models, DM)通过迭代对高斯噪声进行去噪,生成符合目标分布的样本(如图像)。其核心是学习“噪声预测函数”,通过预测每一步的噪声来逐步还原真实图像。
1. 训练目标
扩散模型的训练目标是最小化预测噪声与真实噪声的差异,数学表达为:
- \(x\):真实图像;
- \(c_p\):文本提示(text prompt)的条件编码;
- \(\epsilon \sim \mathcal{N}(0, I)\):高斯噪声;
- \(t\):时间步(从0到T,均匀分布);
- \(w_t, \omega_{t}, \alpha_{t}\):随时间步变化的权重,用于平衡不同阶段的去噪精度;
- \(\hat{x}_\theta\):模型预测的去噪后图像,目标是让其接近真实图像\(x\)。
2. 推理过程的噪声预测
在推理阶段,模型通过预测噪声逐步去噪。对于带噪声的潜在变量\(z_t = x + \epsilon\),模型预测噪声\(\bar{\epsilon}_\theta\),并通过以下方式更新潜在变量:
即每一步通过减去预测的噪声,逐步还原清晰图像。
二、无分类器引导(Classifier-Free Guidance)
为增强文本与图像的对齐,SLD基于无分类器引导机制,该机制无需额外分类器,通过结合“无条件噪声预测”和“有条件噪声预测”实现引导。其噪声预测公式为:
- \(\epsilon_\theta(z_t)\):无条件噪声预测(不输入文本提示);
- \(\epsilon_\theta(z_t, c_p)\):有条件噪声预测(输入文本提示\(c_p\));
- \(s_g\):引导尺度(通常在0到20之间),控制文本对生成的影响强度。
该公式的直观意义是:将无条件预测“推向”有条件预测的方向,增强文本与图像的一致性。
三、安全潜在扩散(SLD)的核心数学改进
SLD的核心是在无分类器引导基础上,引入“安全引导项”,让模型在生成时主动远离不当内容。其噪声预测公式扩展为:
其中,\(\gamma(z_t, c_p, c_S)\)为安全引导项,用于抑制不当内容;\(c_S\)是“不当概念”的文本编码(如“暴力”“裸露”等)。
1. 安全引导项\(\gamma\)的定义
安全引导项\(\gamma\)的作用是让生成过程远离\(c_S\)对应的不当内容,其数学定义为:
- \(\epsilon_\theta(z_t, c_S)\):基于不当概念\(c_S\)的噪声预测;
- \(\mu\):缩放因子,控制安全引导的强度和范围。
2. 缩放因子\(\mu\)的计算
\(\mu\)根据文本提示\(c_p\)与不当概念\(c_S\)的噪声预测差异动态调整,公式为:
其中:
- \(\ominus\):元素级减法;
- \(s_S\):安全引导尺度(控制抑制强度);
- \(\lambda\):阈值(判断文本提示是否接近不当概念)。
直观来说,当文本提示的噪声预测与不当概念的噪声预测差异较小时(小于\(\lambda\)),\(\mu\)会放大“远离不当概念”的引导;反之则不施加影响,避免过度干预正常生成。
3. 动量机制(Momentum)
为增强安全引导的稳定性,SLD引入动量项,让引导效果在时间步上累积,公式为:
动量项\(\nu_t\)的更新方式为:
- \(\nu_0 = 0\)(初始动量为0);
- \(s_m\):动量尺度(控制动量影响);
- \(\beta_m\):动量衰减因子(控制历史动量的保留程度,通常在0.3到0.7之间)。
动量机制的作用是:在热身期(即使不施加\(\gamma_t\))积累对不当内容的抑制趋势,在后期生成中更高效地移除不当部分。
四、超参数配置的数学意义
SLD通过调整超参数控制安全引导的强度,核心参数包括:
- \(\delta\):热身步数(前\(\delta\)步不施加安全引导,确保图像整体结构先形成);
- \(s_S\):安全引导尺度(越大,抑制不当内容的力度越强);
- \(\lambda\):差异阈值(越小,对“接近不当概念”的文本越敏感);
- \(s_m, \beta_m\):动量参数(影响抑制效果的稳定性)。
论文给出的四组配置(Hyp-Weak到Hyp-Max)通过数学上调整这些参数,实现从“轻微抑制”到“强力移除”的不同效果,平衡生成质量与安全性。
总结
SLD的数学原理核心是:通过修改扩散过程中的噪声预测公式,引入基于文本的安全引导项,让模型利用预训练学到的“不当概念”知识,在生成时主动远离这些内容。其创新点在于无需额外训练,仅通过动态调整噪声预测(结合无分类器引导、安全阈值和动量机制),在保持图像质量和文本对齐的同时,抑制不当内容生成。
SafeGen
SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models
核心原理是通过调节视觉自注意力层,从模型内部移除性暴露内容的视觉表征,实现文本无关的防御。其创新点在于:不依赖文本关键词或预定义不安全概念,而是直接针对视觉层面的性暴露特征,从而有效抵御对抗性提示,同时保留良性图像的生成质量。这种方法为文本到图像模型的安全治理提供了新范式——从“被动过滤”转向“主动移除不安全生成能力”。这篇论文提出的SafeGen是一种文本无关(text-agnostic)的框架,旨在从文本到图像(T2I)模型中消除性暴露内容的生成能力,同时保留良性图像的高保真生成。其核心原理是通过调节模型的视觉自注意力层,从根本上移除性暴露内容的视觉表征,从而抵御对抗性提示(adversarial prompts)的攻击。以下是详细阐述:
一、核心动机:现有方法的局限性
现有防御方法难以应对对抗性提示(看似无害但隐含性暗示的文本),主要缺陷包括:
- 外部过滤方法(如安全过滤器):依赖文本或图像检测,易被绕过(如对抗性提示可规避关键词检测)。
- 内部文本依赖方法(如SLD、ESD):通过抑制与性相关的文本嵌入或引导模型远离预定义的不安全概念,但无法覆盖所有隐含性暗示的表述(如色情明星名字、多义词的性暗示)。
因此,SafeGen提出文本无关的防御范式:直接从视觉表征层面消除性暴露内容的生成能力,与输入文本无关,从根源上切断性暗示文本与性暴露图像的关联。
二、技术基础:T2I模型的注意力机制
文本到图像模型(如Stable Diffusion)的生成过程依赖两种注意力机制:
- 文本依赖的交叉注意力层(Cross-Attention Layers):将文本嵌入转化为视觉引导,确保生成图像与文本对齐(如“红色苹果”引导生成红色苹果的图像)。
- 视觉仅用的自注意力层(Self-Attention Layers):捕捉图像内部像素间的全局关系(如人体各部位的空间关联),使生成图像符合真实视觉分布。
SafeGen的核心洞察是:性暴露内容的视觉表征(如人体隐私部位的空间关联)主要由自注意力层学习和编码。因此,调节自注意力层可直接移除这些表征,实现文本无关的防御。
三、SafeGen的核心设计
SafeGen通过三个关键步骤实现性暴露内容的抑制:数据准备、自注意力层调节、损失函数优化。
1. 数据准备:构建图像三元组
为了让模型学习“性暴露内容应被转化为无害形式”,SafeGen使用三类图像构成的三元组(<nude, censored, benign>):
- nude:性暴露图像(如裸身图像);
- censored:对nude图像进行马赛克处理后的版本(消除性暴露特征,但保留整体结构);
- benign:良性图像(如日常场景、衣物完整的人像)。
通过这三类图像,模型被训练为:将性暴露图像的潜变量(latent)去噪为马赛克版本,同时保持良性图像的正常生成。
2. 调节视觉自注意力层
SafeGen选择调节自注意力层的参数(而非交叉注意力层),原因是:
- 自注意力层负责捕捉图像内部的全局视觉关系(如人体部位的空间布局),是性暴露内容视觉表征的核心载体;
- 交叉注意力层与文本关联,调节它可能影响良性文本与图像的对齐(如“医生”可能被误判为性相关概念)。
具体操作是:通过优化自注意力层的查询(Q)、键(K)、值(V)矩阵(\(w_Q, w_K, w_V\)),使模型在去噪过程中自动将性暴露图像的潜变量转化为马赛克版本的潜变量,同时不影响良性图像的生成。
3. 损失函数:双重约束
为实现“抑制性暴露内容+保留良性生成”的平衡,SafeGen设计了两个损失函数:
(1)马赛克损失(\(\mathcal{L}_m\))
促使模型将性暴露图像的潜变量去噪为马赛克版本的潜变量,公式为:
- \(z_t^n\):性暴露图像在时间步\(t\)的带噪声潜变量;
- \(z_T^m\):马赛克图像的最终带噪声潜变量;
- \(\epsilon_{U^*}(z_t^n, t)\):调节后的U-Net对性暴露潜变量的噪声预测;
- \(\epsilon_t^n\):性暴露图像在时间步\(t\)被注入的噪声。
直观意义:让模型学习“性暴露潜变量的去噪结果应接近马赛克潜变量”,从而在生成时自动将性暴露内容转化为马赛克形式。
(2)保留损失(\(\mathcal{L}_p\))
确保良性图像的生成质量不受影响,公式为:
- \(z_t^b\):良性图像在时间步\(t\)的带噪声潜变量;
- \(\epsilon_t^b\):良性图像在时间步\(t\)被注入的噪声。
直观意义:约束模型对良性潜变量的噪声预测与原始噪声一致,避免良性图像生成质量下降。
(3)联合优化
最终优化目标是平衡两个损失:
- \(W^+\):自注意力层的参数(\(w_Q, w_K, w_V\));
- \(\lambda_m, \lambda_p\):权重(论文中最优设置为\(\lambda_m=0.1, \lambda_p=0.9\),优先保证良性图像质量)。
四、文本无关性的实现
SafeGen通过以下方式确保对输入文本的无关性:
- 训练阶段:仅使用图像三元组(无文本)调节自注意力层,使模型在无文本引导时(即无条件生成)就能自动抑制性暴露内容。
- 推理阶段:无论输入文本是否包含性暗示,自注意力层已被“编程”为无法生成性暴露的视觉表征——即使文本引导模型生成性暴露内容,自注意力层也会将其转化为马赛克或无害形式。
这种机制从根本上切断了“性暗示文本→性暴露图像”的关联,抵御对抗性提示的攻击。
五、与现有方法的核心区别
| 方法类型 | 原理 | 局限性 | SafeGen的改进 |
|---|---|---|---|
| 外部过滤 | 检测并过滤不安全文本/图像 | 易被对抗性提示绕过 | 无需检测,直接从模型内部移除表征 |
| 内部文本依赖 | 抑制性相关文本嵌入或概念 | 无法覆盖隐含性暗示的文本 | 文本无关,覆盖所有隐含提示 |
| SafeGen | 调节自注意力层,移除视觉表征 | 仅针对性暴露内容 | 高效、通用,不影响良性生成 |
六、效果验证
实验表明,SafeGen在四个数据集(包括对抗性提示和良性提示)上表现最优:
- 性暴露内容抑制:裸身移除率(NRR)高达99.4%,显著高于现有方法(如ESD的85.3%、SLD的82.6%)。
- 良性生成保留:在COCO-25k良性提示上,CLIP分数(文本-图像对齐)、LPIPS分数(视觉相似度)、FID分数(分布相似度)与原始模型接近,证明高保真生成能力。
- 对抗性提示抵御:对优化生成的对抗性提示(如含伪词或隐含性暗示的文本),NRR仍保持98%以上,而现有方法(如SLD)的NRR降至55%以下。
总结
SafeGen的核心原理是通过调节视觉自注意力层,从模型内部移除性暴露内容的视觉表征,实现文本无关的防御。其创新点在于:不依赖文本关键词或预定义不安全概念,而是直接针对视觉层面的性暴露特征,从而有效抵御对抗性提示,同时保留良性图像的生成质量。这种方法为文本到图像模型的安全治理提供了新范式——从“被动过滤”转向“主动移除不安全生成能力”。
ESD
Erasing Concepts from Diffusion Models
这篇论文提出的Erased Stable Diffusion(ESD) 旨在通过微调扩散模型的权重,永久移除特定视觉概念(如 Nude 、艺术风格、物体类别),而无需在推理时额外干预。其核心数学原理基于扩散模型的噪声预测机制,通过“负引导”(negative guidance)构建损失函数,引导模型在微调过程中学习抑制目标概念的噪声成分。以下是详细的数学原理阐述:
一、扩散模型的基础噪声预测
扩散模型(如 Stable Diffusion)的核心是在每个时间步 \(t\) 预测添加到潜变量中的噪声,最终通过逐步去噪生成图像。对于文本条件生成,模型的噪声预测函数为 \(\epsilon_{\theta}(z_t, c, t)\),其中:
- \(z_t\):时间步 \(t\) 的带噪声潜变量;
- \(c\):文本条件(如“Van Gogh style”或“nudity”);
- \(t\):扩散时间步;
- \(\theta\):模型参数。
模型训练的目标是最小化预测噪声与真实噪声的差异,损失函数为:
其中 \(\epsilon\) 是真实噪声,期望 \(\mathbb{E}\) 覆盖所有可能的潜变量、文本条件和噪声样本。
二、ESD 的核心思想:负引导噪声预测
ESD 的核心是通过“负引导”修改模型的噪声预测,使模型在生成时主动抑制目标概念。具体来说,对于需要擦除的概念 \(c\)(如“Van Gogh”或“nudity”),微调后的模型 \(\theta'\) 应学习生成一种“修正后的噪声预测”,这种预测会抵消目标概念相关的噪声成分。
1. 修正后的噪声预测公式
对于冻结的原始模型 \(\theta^*\)(未微调的预训练模型),其无条件噪声预测(无文本条件)为 \(\epsilon_{\theta^*}(z_t, t)\),条件噪声预测(有文本条件 \(c\))为 \(\epsilon_{\theta^*}(z_t, c, t)\)。
目标概念 \(c\) 相关的噪声成分可表示为两者的差值:
这个差值 \(\Delta \epsilon\) 捕捉了文本条件 \(c\) 对噪声预测的“贡献”——即目标概念在噪声中的体现。
为了擦除目标概念,ESD 要求微调后的模型 \(\theta'\) 的噪声预测应减去这部分贡献(乘以引导强度 \(\eta\)),即:
代入 \(\Delta \epsilon\) 后:
- \(\eta \geq 0\):负引导强度,控制对目标概念的抑制程度(\(\eta\) 越大,抑制越强)。
- 直观意义:微调后的模型的条件噪声预测,应等于原始模型的无条件噪声预测,减去目标概念相关的噪声贡献,从而在生成时“抹去”该概念的影响。
2. 微调损失函数
为了让微调后的模型 \(\theta'\) 学习上述修正后的噪声预测,ESD 定义损失函数为:
- 这是一个 L2 损失,要求模型 \(\theta'\) 的噪声预测 \(\epsilon_{\theta'}(z_t, c, t)\) 尽可能接近公式(1)定义的“修正后噪声预测”。
- 训练过程中,原始模型 \(\theta^*\) 的参数被冻结,仅微调 \(\theta'\) 的参数以最小化该损失。
三、损失函数的数学意义
公式(2)的损失函数本质是让模型学习“抵消”目标概念的噪声贡献。通过最小化该损失,微调后的模型会:
- 降低目标概念 \(c\) 相关的噪声成分(\(\Delta \epsilon\));
- 保留原始模型对其他概念的噪声预测能力(因为仅针对目标概念 \(c\) 进行修正)。
例如,当擦除“Van Gogh 风格”时,\(\Delta \epsilon\) 捕捉了 Van Gogh 风格在噪声中的独特模式,损失函数会迫使模型 \(\theta'\) 不再生成这种模式,从而在最终图像中消除该风格。
四、参数选择:交叉注意力层 vs 非交叉注意力层
ESD 的效果取决于微调哪些参数,这与目标概念的特性相关:
- 交叉注意力层(ESD-x):负责文本条件与视觉特征的对齐(如“Van Gogh 风格”与文本的关联)。微调这些层可精准擦除与特定文本相关的概念(如艺术家风格),且对其他风格干扰小。
- 非交叉注意力层(ESD-u):负责视觉特征内部的全局关联(如 Nude 部位的空间布局)。微调这些层可全局擦除视觉概念(如 Nude ),即使文本中未明确提及该概念。
五、与其他方法的数学对比
| 方法 | 数学原理 | 局限性 |
|---|---|---|
| 推理引导(如 SLD) | 推理时动态调整噪声预测:\(\tilde{\epsilon} = \epsilon_{\text{uncond}} + s \cdot (\epsilon_{\text{cond}} - \epsilon_{\text{uncond}} - \gamma)\) | 需在推理时额外计算,易被绕过 |
| 数据集过滤(如 SD 2.0) | 重新训练模型,移除目标概念相关数据 | 成本极高,可能影响模型整体性能 |
| ESD | 微调模型权重,通过损失函数(2)永久修正噪声预测 | 仅针对特定概念,需为每个概念单独微调 |
六、实验验证的数学依据
论文通过定量实验验证了 ESD 的有效性:
- Nude 擦除:在 I2P 数据集上,ESD-u(微调非交叉注意力层)使 Nude 检测率降低 83% 以上,优于 SLD(推理引导)和 SD 2.0(数据集过滤)。这是因为 ESD-u 全局消除了 Nude 相关的视觉噪声模式。
- 艺术风格擦除:ESD-x(微调交叉注意力层)使生成图像与目标艺术家风格的相似度评分从 3.21 降至 1.12(1-5 分制),且对其他风格干扰小(相似度评分保持 2.92)。这验证了损失函数(2)仅针对性抵消目标风格的噪声贡献。
总结
ESD 的核心数学原理是通过负引导的噪声修正和针对性参数微调,永久移除扩散模型中目标概念的噪声成分。其损失函数(公式 2)迫使模型学习抵消目标概念的独特噪声模式,从而在生成图像中消除该概念,且对其他概念的影响极小。这种方法相比推理时干预更彻底,相比重新训练更高效,为扩散模型的概念擦除提供了新的数学框架。
三篇论文(Safe Latent Diffusion, SafeGen, Erased Stable Diffusion)均针对文本到图像生成模型中的不当内容生成问题提出了解决方案,并通过精心设计的实验和评价指标验证了自身方法的有效性。以下分别梳理三者对自身成果的评价、实验设计及评价指标:
评价指标
一、Safe Latent Diffusion(SLD)
1. 成果评价
SLD认为自身实现了在不额外训练、不降低图像质量和文本对齐性的前提下,有效抑制扩散模型生成的不当内容。具体而言,SLD通过在扩散过程中动态调整噪声预测,主动远离“不当概念”(如暴力、裸身等),即使对于未明确提及不当内容的“对抗性提示”,也能减少意外生成的不当内容。
2. 实验设计
- 测试集:构建了I2P(Inappropriate Image Prompts) 测试集,包含4703个真实世界用户生成的提示词,覆盖7类不当内容(仇恨、骚扰、暴力、自残、性内容、惊悚内容、非法活动)。
- 对比方法:与原始Stable Diffusion(SD)、负提示(Negative Prompt)方法对比。
- 核心实验:
- 评估不同配置的SLD(Hyp-Weak到Hyp-Max)对I2P提示生成的不当内容的抑制效果;
- 验证SLD对“种族偏见”(如针对特定族群的裸身内容生成)的缓解作用;
- 测试SLD对良性图像生成质量(如COCO数据集)的影响。
3. 评价指标
- 不当内容抑制:
- 不当内容生成概率(通过Q16分类器和NudeNet联合判定,统计生成图像中被标记为“不当”的比例);
- 预期最大不当率(bootstrap估计25个提示中至少一次生成高比例不当内容的概率)。
- 图像质量与文本对齐:
- COCO FID-30k(评估生成图像与真实图像分布的相似度,值越低质量越高);
- CLIP距离(评估文本与图像的语义对齐性,值越低对齐越好);
- 大规模用户研究(让用户对比SLD与原始SD生成图像的质量和文本对齐性)。
二、SafeGen
1. 成果评价
SafeGen认为自身实现了文本无关(text-agnostic)的性暴露内容抑制,通过调节模型的视觉自注意力层,从根本上移除性暴露内容的视觉表征,能抵御对抗性提示(如看似无害但隐含性暗示的文本),且不影响良性图像的生成质量。其性能显著优于现有外部过滤、文本依赖的内部防御方法。
2. 实验设计
- 测试集:
- 对抗性提示集:I2P(手动构建的性相关提示)、SneakyPrompt(优化生成的对抗性提示,含自然词和伪词)、NSFW-56k(真实色情图像的BLIP2标注提示);
- 良性提示集:COCO-25k(MS COCO的良性图像标注提示)。
- 对比方法:与原始Stable Diffusion(SD)、外部过滤(SD-V2.1、安全过滤器)、文本依赖内部方法(ESD、SLD)对比。
- 核心实验:
- 评估在对抗性提示下性暴露内容的移除效果;
- 验证在良性提示下图像质量和文本对齐性的保留;
- 测试与其他方法结合(如SLD、ESD)的协同效果。
3. 评价指标
- 性暴露内容抑制:
- NRR(Nudity Removal Rate,裸身移除率):通过NudeNet统计生成图像中裸身部位(如乳房、生殖器)的数量减少比例;
- CLIP分数(针对对抗性提示):评估生成图像与性暴露提示的语义对齐性(值越低,抑制效果越好)。
- 良性生成质量:
- CLIP分数(针对良性提示):评估文本与图像的对齐性(值越高越好);
- LPIPS分数:评估生成图像与参考图像的视觉相似度(值越低,保真度越高);
- FID分数:评估生成图像与真实图像的分布相似度(值越低,质量越高);
- 大规模用户研究:评估用户对性暴露内容减少的感知、良性图像的质量和对齐性。
三、Erased Stable Diffusion(ESD)
1. 成果评价
ESD认为自身实现了从模型权重中永久擦除特定视觉概念(如艺术风格、裸身、物体类别),且对其他概念的干扰极小。相比推理阶段的干预(如SLD)或数据集过滤(如SD-V2.1),ESD更彻底、难以被绕过,且无需重新训练模型。
2. 实验设计
- 测试场景:
- 艺术风格擦除:擦除5位现代艺术家(如Van Gogh、Kilian Eng)的风格;
- 裸身内容擦除:针对I2P测试集中的性相关提示;
- 物体类别擦除:擦除10个ImageNet物体类别(如“汽车”“教堂”)。
- 对比方法:与原始Stable Diffusion(SD)、推理引导(SLD)、负提示(SD-Neg-Prompt)、数据集过滤(SD-V2.1)对比。
- 核心实验:
- 评估目标概念的擦除效果(如艺术风格的用户感知、裸身部位的数量变化);
- 验证对非目标概念的干扰(如其他艺术风格、物体类别的生成质量)。
3. 评价指标
- 目标概念擦除效果:
- 用户研究(艺术风格):让用户对生成图像与目标艺术家风格的相似度评分(1-5分,值越低擦除效果越好);
- NudeNet检测(裸身):统计裸身部位的数量变化(如女性乳房、生殖器等);
- ResNet-50分类准确率(物体擦除):评估被擦除物体的生成图像被正确分类的比例(值越低擦除效果越好)。
- 非目标概念干扰:
- LPIPS分数:评估生成图像与原始模型生成图像的视觉差异(值越低,干扰越小);
- FID和CLIP分数:评估良性图像的生成质量和文本对齐性(与原始模型接近则干扰小)。
总结
三者均通过针对性的测试集(如I2P、对抗性提示、特定概念数据集)、多维度评价指标(客观指标如NRR、FID、CLIP,主观指标如用户研究)验证了方法的有效性,并强调自身在“抑制不当内容”与“保留良性生成”之间的平衡优势。具体差异在于:
- SLD侧重广泛的不当内容抑制,通过推理阶段的动态调整实现;
- SafeGen专注性暴露内容的文本无关抑制,通过调节视觉自注意力层实现;
- ESD聚焦特定概念的永久擦除,通过微调模型权重实现。

浙公网安备 33010602011771号