【AIGC人脸生成的后门攻击】 Is It Possible to Backdoor Face Forgery Detection with Natural Triggers?

[!CAUTION]

本篇论文主要是关于AIGC生成人脸的后门攻击，与换脸技术的后门攻击有差异，因此本篇文章主要研究 trigger 的生成部分，后面的实验部分不加以研究。

一、研究动机

目前的后门攻击模型还比较简单，是基于数字像素上的操作，例如增加噪声或者像素补丁，这些攻击已经有很多backdoor defense方法检测，但这些trigger是容易被人眼所观察到的。为此本文从以下两个角度以及 AIGC模型生成trigger, 从潜在空间向量实现后门攻击。

[!NOTE]

Model Discrimination (Optimization-Based Trigger)：使用替代模型通过交叉熵损失寻找

Data Distribution (Custom Trigger)：操控不重要的面部属性

AIGC : StyleGAN，Stable Diffusion

二、BACKDOOR ATTACK

[!TIP]

攻击者不知道攻击什么模型

攻击者无法访问原始训练数据

2.1 Optimization-Based Trigger

[!NOTE]

通过交叉熵损失找到 trigger，训练时的数据与原来的模型训练数据没有重复，并且模型架构不同

poisoned image ：在潜在向量中加入trigger通过 G 生成图像
train stage：使用代替模型进行训练以寻找 trigger，训练完成后通过 scale fator \(\alpha\) 调整 L2 norm

2.2 Custom Trigger

[!TIP]

不需要代替数据以及模型

过程实现：

分析 Diverse Fake Face Dataset 的面部属性分布，并且找到长尾分布的属性：微笑的程度，年龄
工具

face parsing tools：检测嘴巴的区域范围，用嘴巴占比表示笑的程度

FaceLib：年龄估算

InterFaceGAN：属性编辑模型

微笑程度与年龄的属性分布

Smile Trigger

如属性分布图（a）可以发现，生成的假图的 smile distribution 集中在 0-0.025，随着\(\beta_1\)的加大，加入了trigger的poisoned sample与Benign sample的差异拉大。

\[t = \beta_1 \times smlie \]

在后面的实验中也证明了，随着\(\beta_1\)的加大，攻击效果越好

Age Trigger

如属性分布图（b）所示，Benign sample的年龄分布在0-20岁的概率较低，
Triggers

三、数据

图像数据
- 真实人脸与合成人脸数据：Diverse Fake Face Dataset
  
  真实图像：CelebA, FFHQ
  
  生成图像模型：PGGAN, StyleGAN
- 代替数据：
  
  真实图像：FFHQ
  
  生成图像模型：StyleGAN
模型
- 检测模型：EfficientNet-B3
- 代替模型：ResNet-18
评价指标
- BA
- ASR

posted @ 2024-11-02 15:14 九年义务漏网鲨鱼阅读(103) 评论(0) 收藏举报

刷新页面返回顶部

DLShark