(论文阅读)REGIONVIT: REGIONAL-TO-LOCAL ATTENTION FOR VISION TRANSFORMERS
1. 论文
题目: REGIONVIT: REGIONAL-TO-LOCAL ATTENTION FOR VISION TRANSFORMERS
代码: https://github.com/IBM/RegionViT
会议/期刊:ICLR2022
摘要:
对ViT的一种改进。提出了一种rigional to local attention,核心思想是将同一个输入(图片)不重叠地分割成一大一小两种size的patch,然后将两种patch之中的信息融合,来提升所学习特征的多尺度表现。
2. 所提出方法:

比较有意思的是regional to local attention 的设计,既local token计算自注意力时,这个区域对应的regional token也会参与。这就完成信息的交互。也是本文的核心(使用了相对位置编码,剩余使用了相对位置编码)。

3. 实验:
可能还是不如swin
4. 讨论:
看这篇早期的文献,主要是为了验证神经算子这边physics position attention的设计。
本文的做法类似Crossvit?(同一批作者😀)
但我尝试CrossPiT感觉没什么用,不仅会增加大量的计算,性能也没有提升。甚至可能不如单分支。
posted on 2025-09-07 19:56 Orange0005 阅读(17) 评论(0) 收藏 举报
浙公网安备 33010602011771号