量化图像概念相似性的新方法
量化图像的“概念相似性”
新方法利用视觉语言模型将原本需要人类判断的对比过程形式化。
会议:CVPR 2024
核心内容
什么使两张图像相似?这个问题对计算机视觉系统的训练至关重要,但 notoriously 难以回答。因为对人类观察者而言,图像相似性不仅是视觉上的,更是概念上的:像素模式截然不同的图像可能表达相同的概念。
在今年计算机视觉与模式识别会议(CVPR)上发表的论文中,提出了一种测量两张图像之间概念距离的方法。该方法通过大型视觉语言模型实现双重应用:首先生成每个图像的多长度描述,随后计算每个描述指向任一图像的概率。
该方法示例,将概念距离(x轴)量化为描述长度(y轴)的函数
核心思想是评估可区分性随描述长度的变化:若两张图像可通过简短描述轻松区分,则相似度低;若需要大量文本才能可靠区分,则相似度高。由于该方法依赖于逐步细化的自然语言描述,同时具备可解释性:人类观察者可轻松理解图像获得特定相似度分数的原因。
评估结果
通过与最先进的对比学习嵌入技术在两个人类标注图像相似度的数据集上对比,该方法平均比现有技术更好地预测人类标注结果9%。
概念相似性的三大挑战
- 随机性主导:任意两张图像存在大量微小差异,远超过结构相似性,难以将概念相似性映射到像素值相似性
- 无规范属性:图像中对概念相似性重要的属性无法先验指定(如物体颜色、场景位置或文本字体有时无关紧要,有时却至关重要)
- 对抗性可区分性:攻击者可能通过表面修改(如改变特定物体颜色或方向)试图降低相似度测量值
方法优势
该方法通过先构建准确图像描述再考虑描述间差异的方式,解决了上述所有难题:
- 避免为对抗者提供可操纵的基本可区分性概念
- 短描述自然忽略随机变异
- 通过自然语言的灵活性规避结构定义规范性问题
技术实现
模型从假设空间和图像空间出发:
- 使用自然语言描述作为假设,同时支持其他具有长度概念的假设形式
- 通过解码器计算给定假设指向给定图像的概率(实践中使用大型视觉语言模型)
- 将寻找有效描述的问题转化为可优化的分布发现问题
距离度量定义
给定两张图像A和B及各自特定长度的近最优描述:
- 计算A假设描述两张图像的概率差
- 计算B假设的概率差
- 取两个差异的平均值作为该描述长度下的概念距离
距离随假设长度的变化率反映相似性:变化慢表示难区分(相似度高),变化快表示易区分。单一相似度评分使用距离函数在假设长度范围内的曲线下面积。
未来方向
当前仅使用视觉语言模型的文本输出测量距离,未来可能通过直接测量视觉属性提供额外区分层,同时避免对随机性或对抗操纵的敏感性。相关探索已在持续进行中。
研究领域:计算机视觉
标签:视觉语言模型(VLMs),可解释AI
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码


浙公网安备 33010602011771号