(论文阅读）REGIONVIT: REGIONAL-TO-LOCAL ATTENTION FOR VISION TRANSFORMERS

1. 论文

题目： REGIONVIT: REGIONAL-TO-LOCAL ATTENTION FOR VISION TRANSFORMERS
代码： https://github.com/IBM/RegionViT
会议/期刊：ICLR2022
摘要：

对ViT的一种改进。提出了一种rigional to local attention，核心思想是将同一个输入(图片)不重叠地分割成一大一小两种size的patch，然后将两种patch之中的信息融合，来提升所学习特征的多尺度表现。

比较有意思的是regional to local attention 的设计，既local token计算自注意力时，这个区域对应的regional token也会参与。这就完成信息的交互。也是本文的核心（使用了相对位置编码，剩余使用了相对位置编码）。

可能还是不如swin

看这篇早期的文献，主要是为了验证神经算子这边physics position attention的设计。

本文的做法类似Crossvit?(同一批作者😀)

但我尝试CrossPiT感觉没什么用，不仅会增加大量的计算，性能也没有提升。甚至可能不如单分支。

posted on 2025-09-07 19:56 Orange0005 阅读(17) 评论(0) 收藏举报

刷新页面返回顶部