NeurIPS 2025|清华北大团队开源VCA模块,即插即用,让视觉AI“抓重点”既快又准

NeurIPS 2025|清华北大团队开源VCA模块,即插即用,让视觉AI“抓重点”既快又准

论文标题:Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials

作者团队:清华大学、北京大学

发布时间:2025年11月4日

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。您还可以投稿复现这篇论文~

⭐核心思想:让视觉AI“抓重点”,既快又准

这篇文章解决了一个核心矛盾:强大的Vision Transformer(ViT)模型计算量太大,太慢。

你可以把传统的ViT想象成一个特别认真的学生,看一张图片时,会把图片切成很多个小块(比如256个),然后让每一个小块都去和其他的255个小块互相比较一下,看看谁和谁更像。这种方法很全面,但计算量随着图片块数量的增加呈平方级爆炸增长。

⭐研究方法

为了让这个“认真但低效”的学生变得更聪明,作者团队提出了一个名为 “视觉对比注意力”(Visual-Contrast Attention, VCA) 的新方法。它的核心思想是:不要一上来就让所有细节互相比较,先让模型学会“抓重点”,通过“对比”来找出真正有区分度的信息。

⭐研究结果

该方法在多个任务中表现卓越。在ImageNet上,它将DeiT-Tiny的准确率提升了3.4%;在图像生成中,显著降低了DiT等模型的FID指标。所有这些提升仅引入了极少参数量,且未增加计算开销,证明了其高效性和普适性。

posted @ 2025-11-26 20:10  Lab4AI大模型实验室  阅读(0)  评论(0)    收藏  举报