(论文阅读)REGIONVIT: REGIONAL-TO-LOCAL ATTENTION FOR VISION TRANSFORMERS

1. 论文

题目: REGIONVIT: REGIONAL-TO-LOCAL ATTENTION FOR VISION TRANSFORMERS
代码: https://github.com/IBM/RegionViT
会议/期刊:ICLR2022
摘要:

对ViT的一种改进。提出了一种rigional to local attention,核心思想是将同一个输入(图片)不重叠地分割成一大一小两种size的patch,然后将两种patch之中的信息融合,来提升所学习特征的多尺度表现。


2. 所提出方法:

image-20250907194430270

比较有意思的是regional to local attention 的设计,既local token计算自注意力时,这个区域对应的regional token也会参与。这就完成信息的交互。也是本文的核心(使用了相对位置编码,剩余使用了相对位置编码)。

image-20250907194525765


3. 实验:

可能还是不如swin

4. 讨论:

看这篇早期的文献,主要是为了验证神经算子这边physics position attention的设计。

本文的做法类似Crossvit?(同一批作者😀)

但我尝试CrossPiT感觉没什么用,不仅会增加大量的计算,性能也没有提升。甚至可能不如单分支。

posted on 2025-09-07 19:56  Orange0005  阅读(17)  评论(0)    收藏  举报