量化图像“概念相似性”的新方法

量化图像的“概念相似性”

一种新方法利用视觉语言模型,将以前需要人类判断的比较形式化。

会议:CVPR 2024

相关出版物:通过复杂度约束描述性自编码解释概念相似性度量


是什么让两张图像相似?这个问题对于计算机视觉系统的训练至关重要,但众所周知难以回答。这是因为,对于人类观察者来说,两张图像的相似性不仅是视觉上的,更是概念上的:像素模式非常不同的图像可能表达着相同的概念。

在今年计算机视觉与模式识别会议(CVPR)上提交的一篇论文中,我们提出了一种测量两张图像之间概念距离的方法。我们的方法以两种方式使用一个大型视觉语言模型:首先,用它生成每张图像不同长度的多个描述;然后,用它计算每个描述指代其中任意一张图像的概率。

该方法的核心理念是,根据描述长度来评估可区分性:如果两张图像很容易被简短的描述区分开,那么它们并不十分相似;但如果需要大量文本才能可靠地区分彼此,那么它们必定是相似的。由于我们的方法依赖于颗粒度不断增加的自然语言描述,它也是可解释的:人类观察者可以很容易地确定图像获得特定相似性分数的确切原因。

为了评估我们的方法,我们将其与当前测量图像相似性的最先进技术(该技术使用对比学习嵌入)进行了比较,在两个人类标注者已根据相似性对图像对进行评分的数据集上进行。在两个数据集上,我们的方法更好地预测了人类标注,平均提高了9%。

概念相似性
定义一个概念距离度量面临三个主要挑战:

  1. 随机性主导:任何两张图像都会有大量微小的差异,这些差异压倒了结构上的相似性,因此将概念相似性映射到像素值的相似性很困难。
  2. 无规范属性:图像中哪些属性对概念相似性重要无法先验指定:有时物体的颜色、场景的位置或文本的字体可能无关紧要;有时可能至关重要。
  3. 对抗性可区分性:试图破坏相似性检测器的人可能会对图像进行表面上的修改——例如,改变特定物体或图形的颜色或方向——希望足够的此类差异会降低相似性度量。一个好的度量标准需要能够抵御此类对抗技术。

我们的方法解决了所有这些困难。因为它首先构建图像的准确描述,然后才考虑描述之间的差异,所以它没有提供对手可以利用的基本可区分性概念(如挑战3所述)。而且由于这些描述一开始就很简短,它们必然忽略了挑战1中提到的随机变化。

我们的论文对挑战2给予了更多关注。概念相似性没有规范属性这一点可能很直观,但我们正式证明了这一点。本质上,我们表明,如果一个方法枚举了足够多的图像属性以识别任何概念相似性的实例,那么它将枚举如此多的属性,以至于在它考虑的任何两个样本之间都能找到相似性,从而使相似性和差异的概念变得空洞。然而,通过选择自然语言作为我们的比较媒介,我们绕过了结构规范定义的问题:自然语言足够灵活,可以容纳图像之间的任何相似性。

模型
在我们的模型中,我们从假设空间和图像空间开始;实际上,我们使用自然语言描述作为我们的假设,但该模型可以容纳任何其他选择,只要假设具有相关的长度概念,类似于柯尔莫哥洛夫复杂性中的程序长度概念。

接下来,我们定义一个解码器来计算给定假设指代给定图像的概率。同样,该模型与解码器的选择无关,但在实践中,我们使用大型视觉语言模型。

我们的概念相似性概念取决于我们如何使用不同长度的自然语言假设来描述图像。随着描述变长,改进的速率反映了图像的概念内容。随机图像需要很长的字符串才能将其描述得足以彼此区分。另一方面,“一只穿着粉色芭蕾舞裙骑独轮车的斗牛犬”虽然不常见,但并非非常随机,因为它可以被简洁地描述。当更长的描述不再以某种幅度提高我们的目标图像似然性时,我们就可以说我们已经捕捉到了图像中所有概念性的(非随机的)信息。

对于给定的假设长度,我们希望找到能够最大化目标图像似然性的描述。然而,可能的描述空间是巨大的,因此无法高效搜索,并且它是离散的,因此无法通过梯度下降进行探索。因此,我们略微放宽了最优性要求,转而识别一个长度受限的假设分布,这些假设很可能是对目标的描述。这将发现有效描述的挑战转变为一个可处理的优化问题。

我们现在可以定义我们的距离度量。给定两张图像A和B,以及每张图像在给定长度下的一个接近最优的描述,我们首先计算A假设描述两张图像A和B的概率;然后我们取这两个概率之间的差值。我们对B假设重复这个过程。两个差值的平均值就是图像在该特定假设长度下的概念距离。

我们的度量基于该距离随假设长度变化的速率。变化速率慢表示相似性:图像难以区分;变化速率快表示它们易于区分。因此,当需要使用单一值对两张图像的相似性进行评分时,我们使用距离函数在一系列假设长度上曲线下的面积。

虽然我们的实验验证了该方法的实用性,但目前我们仅使用视觉语言模型的文本来测量距离。直接测量视觉属性可能会提供额外的区分层,同时希望不会陷入对随机性(上述挑战1)或对抗性操纵(挑战3)敏感的风险。我们正在持续的工作中探索这种可能性。

研究领域:计算机视觉

标签:视觉语言模型, 可解释AI
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-12-06 12:42  CodeShare  阅读(0)  评论(0)    收藏  举报