[重读经典论文] MobileViT

MobileViT结构上是一个混合模型，CNN+Transformer，比主流的轻量化ViT网络和轻量化CNN网络参数量少，精度高，缺点是推理速度慢，下图可以看到，推理时间是MobileNetV2的8倍。

网络结构：

其中MV2为MobileNetV2的逆残差结构：

MobileViT结构是主要的创新，Unfold过程，其实就是对局部特征进行分组形成序列，再输入Transformer模块进行self-attention操作：

如上图所示，就是把feature map分成若干n*n的patch，然后将每个patch中相同位置（图中相同颜色）的特征形成一个个序列，再进行self-attention操作。

最后再将输出的序列进行unfold，也就是将每个序列相同位置的特征恢复到相应的位置。

posted @ 2023-06-13 10:50 大师兄啊哈阅读(598) 评论(0) 收藏举报

刷新页面返回顶部

大师兄的博客