NeurIPS 2025|清华北大团队开源VCA模块,即插即用,让视觉AI“抓重点”既快又准
NeurIPS 2025|清华北大团队开源VCA模块,即插即用,让视觉AI“抓重点”既快又准


论文标题:Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials
作者团队:清华大学、北京大学
发布时间:2025年11月4日
✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。您还可以投稿复现这篇论文~
⭐核心思想:让视觉AI“抓重点”,既快又准
这篇文章解决了一个核心矛盾:强大的Vision Transformer(ViT)模型计算量太大,太慢。
你可以把传统的ViT想象成一个特别认真的学生,看一张图片时,会把图片切成很多个小块(比如256个),然后让每一个小块都去和其他的255个小块互相比较一下,看看谁和谁更像。这种方法很全面,但计算量随着图片块数量的增加呈平方级爆炸增长。
⭐研究方法
为了让这个“认真但低效”的学生变得更聪明,作者团队提出了一个名为 “视觉对比注意力”(Visual-Contrast Attention, VCA) 的新方法。它的核心思想是:不要一上来就让所有细节互相比较,先让模型学会“抓重点”,通过“对比”来找出真正有区分度的信息。
⭐研究结果
该方法在多个任务中表现卓越。在ImageNet上,它将DeiT-Tiny的准确率提升了3.4%;在图像生成中,显著降低了DiT等模型的FID指标。所有这些提升仅引入了极少参数量,且未增加计算开销,证明了其高效性和普适性。

浙公网安备 33010602011771号