【AIGC人脸生成的后门攻击】 Is It Possible to Backdoor Face Forgery Detection with Natural Triggers?
[!CAUTION]
本篇论文主要是关于AIGC生成人脸的后门攻击,与换脸技术的后门攻击有差异,因此本篇文章主要研究
trigger的生成部分,后面的实验部分不加以研究。
一、研究动机
目前的后门攻击模型还比较简单,是基于数字像素上的操作,例如增加噪声或者像素补丁,这些攻击已经有很多backdoor defense方法检测,但这些trigger是容易被人眼所观察到的。为此本文从以下两个角度以及 AIGC模型生成trigger, 从潜在空间向量实现后门攻击。
[!NOTE]
- Model Discrimination (Optimization-Based Trigger):使用替代模型通过交叉熵损失寻找
- Data Distribution (Custom Trigger):操控不重要的面部属性
- AIGC :
StyleGAN,Stable Diffusion
二、BACKDOOR ATTACK
[!TIP]
- 攻击者不知道攻击什么模型
- 攻击者无法访问原始训练数据
2.1 Optimization-Based Trigger
[!NOTE]
通过交叉熵损失找到 trigger, 训练时的数据与原来的模型训练数据没有重复,并且模型架构不同
- poisoned image :在潜在向量中加入trigger通过
G生成图像 - train stage:使用代替模型进行训练以寻找
trigger,训练完成后通过scale fator\(\alpha\) 调整L2 norm

2.2 Custom Trigger
[!TIP]
不需要代替数据以及模型
-
过程实现:
分析
Diverse Fake Face Dataset的面部属性分布,并且找到长尾分布的属性 :微笑的程度,年龄 -
工具
face parsing tools:检测嘴巴的区域范围,用嘴巴占比表示笑的程度
FaceLib:年龄估算
InterFaceGAN:属性编辑模型
- 微笑程度与年龄的属性分布

- Smile Trigger
如属性分布图(a)可以发现,生成的假图的 smile distribution 集中在 0-0.025,随着\(\beta_1\)的加大,加入了trigger的poisoned sample与Benign sample的差异拉大。
在后面的实验中也证明了,随着\(\beta_1\)的加大,攻击效果越好

-
Age Trigger
如属性分布图(b)所示,Benign sample的年龄分布在0-20岁的概率较低,
-
Triggers

三、数据
-
图像数据
-
真实人脸与合成人脸数据:
Diverse Fake Face Dataset真实图像:
CelebA,FFHQ生成图像模型:
PGGAN,StyleGAN -
代替数据:
真实图像:
FFHQ生成图像模型:
StyleGAN
-
-
模型
- 检测模型:
EfficientNet-B3 - 代替模型:
ResNet-18
- 检测模型:
-
评价指标
BAASR


浙公网安备 33010602011771号