FakeBench:多模态大模型在图像真伪鉴别中的尝试

图片#我是休柏,专注于CV 的第271周

title:FakeBench: Probing Explainable Fake Image Detection via Large Multimodal Models

paper:https://arxiv.org/abs/2404.13306

git:https://github.com/Yixuan423/FakeBench

这篇paper主要是讨论大模型在伪造图像上的检测能力,以及可解释性。看下来更像是一个科普文,告诉了大家篡改领域下,多模态模型的可行性与否。如果想尝试多模态方法,还是有一些引导作用的。

FakeBench是一个用于探测大型多模态模型(LMMs)在可解释假图像检测方面能力的基准数据库。评估标准有四个:检测、推理、解释和细粒度伪造分析,测试模型有14个LMMs,包含开源和闭源模型。

图片

四个评估标准对应三个部分,分别是:FakeClass(检测)、FakeClue(推理、解释)和FakeQA(细粒度分析),对应图上的(a)、(b、c)、(d)。

FakeBench的基准数据库也与之对应,如下:

1.FakeClass:评估LMMs在二元分类任务中检测假图像的能力,判断图像是真实拍摄的还是由AI生成。包含6,000个由假图像和真实图像以及与之相关的问答对组成的元组(I0, Qi, A),其中Qi是关于图像真实性的问题,A是对应的答案(“真”或“假”)。如“这张图片是真是假?”或“这张图片的真实性如何?”。

2.FakeClue:评估LMMs的推理和解释能力,模型是否能够提供支持其真实性判断的伪造证据,并用人类理解的语言描述这些证据。包含6,000个由假图像、问题集合和伪造线索描述组成的元组(I0, {Q}i, C),其中{Q}i是关于图像真实性的问题集合,C是详细的伪造线索描述。

3.FakeQA:评估LMMs对假图像的细粒度伪造方面的分析能力,模型是否能够针对图像的特定方面(如纹理、边缘、光照等)进行深入分析。包含大约42,000个开放性问答对,这些问题涉及14个维度的伪造线索,用于分析图像真实性。伪造线索为(Texture(纹理)、Edge(边缘)、Clarity(清晰度)、Distortion(畸变)、Overall Hue(整体色调)、Light & Shadow(光照与阴影)、Shape(形状)、Content Deficiency(内容缺失)、Symmetry(对称性)、Reflection(反射)、Layout(布局)、Perspective(透视)、Theme(主题)、Irreality(超现实性))。

首先是FakeClass,假图来源为GAN网络和AIGC生成,共3000张,如下:

图片

评估结果方法为检测真假,对比组为人工判别。

图片表看着挺复杂的,解释一下。黑色代表最好,下划线第二,“Model”列是测试模型,其中random guess、humans表示随机猜测和人工猜测,LLMs是各个大模型,DNN是基于CNN的方法。

“Authenticity”表示真假图(Fake、real)下random guess、humans(看overall平均值)、LLMs的准确度。

“Question Type”对应问答元组(I0, Qi, A),“Generation Model ”表示AIGC生成的假图像在随机、人工、14个多模态模型下的准确度。“Overall”代表“Authenticity”下的Fake和real的平均值。

这里面最具话语权的指标是“Authenticity”,能看到大模型在“判真”方面准确度是比人工好一点的,但是“判假”最好的InstructBLIP(67.80%)也差人工(76.91%)9.11%。这个也没办法,因为大模型在训练时候没考虑合成图片和真实图片之间区别,所以模型都偏向于判真。不过,大模型测试都是直接zero-shot,没有微调。能达到这个精度已经很不错了,如果微调的话,应该是能达到商用落地使用。

后面的FakeClue和FakeQA可解释性就没大细看了,因为本身可解释性就有些主观,对于现阶段伪造来说,如何准确的发现真实场景下的虚假才是重点。另外,paper还做了CoT思维链,结果发现各个大模型的准确度几乎全部下跌严重,这里贴下指标和利用大模型的回答。

图片

表格VI、VII和VIII分别展示了在FakeBench数据集中,大型多模态模型(LMMs)在Fake Image Interpretation(假图像解释)、Fake Image Reasoning(假图像推理)和Fine-Grained Forgery Analysis(细粒度伪造分析)任务上的性能评估结果。以下是对这些表格的详细解读:

表格VI:假图像解释能力(Fake Image Interpretation)

LMM:列出了参与评估的14个大型多模态模型。

Automatic Metrics,B.-1, B.-2, R.-L, Sim:这些是自动评估指标,分别代表BLEU-1、BLEU-2、ROUGE-L和句子相似度(Sentence Similarity),用于衡量模型生成的解释与标准答案之间的文本相似度。

GPT-assisted Evaluation: Comp., Prec., Rele.:这些是GPT辅助评估指标,分别代表完整性(Completeness)、精确性(Precision)和相关性(Relevance),用于衡量模型解释的全面性、准确性和与图像真实性的相关性。

Avr.:是模型在所有评估指标上的平均表现。

表格VII:假图像推理能力(Fake Image Reasoning),专注于评估模型在假图像推理任务上的性能。推理任务要求模型从图像内容出发,通过逻辑推理得出图像真实性的结论。

表格VIII:细粒度伪造分析能力(Fine-Grained Forgery Analysis),用于衡量模型在细粒度伪造分析任务上的文本生成能力。

总结

FakeBench对各个大模型的测试还是蛮有趣的,从结果看在真假问题上是有潜力的,综合来看,厉害的还是GPT-4V,不过没开源。如果想尝试或者更进一步去优化,开源模型可以选InstructBLIP、mPLUG-Owl2去魔改和微调,要注意它们的能力是在生成图与真实图,应用场景也将是围绕AIGC与现实场景真假问题。

欢迎留言/私信、互相讨论,感谢支持~

我是休柏,一颗向阳的种子。

posted @ 2025-01-12 18:44  独傲沐年  阅读(342)  评论(0)    收藏  举报