论文笔记5:TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation

论文地址:https://arxiv.org/abs/2102.08005

1 引言

传统CNN网络很难捕获长距离的依赖关系,而且一味的加深网络的深度会带来大量的计算冗余。

文章提出了一种并行分支的TransFuse网络,结合transformer和CNN两种网络架构,能同时捕获全局依赖关系和低水平的空间细节,文中还提出了一种BiFusion module用来混合两个分支所提取的图像特征。

TransFuse在多个医学分割任务中达到SOTA,并在降低参数和提高推理速度方面得到很大的提升。

2 模型

TransFuse包含两个分支,左边是transformer分支,右边是CNN分支,模型通过BiFusion层整合两个分支的特征,然偶经过上采样和attention-gated skip-connection输出分割结果。

2.1 Transformer Branch

Transformer Branch是一个完整的编解码结构,编码器部分使用的是transformer结构,解码器部分使用的是SERT中提到的渐进上采样(PUP)结构。

2.2 CNN Branch

CNN Branch使用ResNet的第四层,第三层和第二层的输出作为这一分支的输出,由于transformer可以捕获全局的上下文信息,故而CNN Branch并不需要设计的很深 。

2.3 BiFusion Module

BiFusion Module主要由通道注意力和空间注意力组成,对Transformer Branch做通道注意力,对CNN Branch做空间注意力。然后经过卷积,相乘,拼接,残差操作,实现两个分支的特征融合。

最后通过上采样和attention-gated skip-connection输出分割结果。

3 总结

文章使用transformer结构捕捉图像的全局上下文信息,并利用这一优点减小CNN结构的层数,只是用很少的卷积层提取局部空间信息作为transformer的补充,并通过BiFusion进行特征融合,最后通过Attention-gate,上采样输出分割结果。文中一共出现四种注意力机制。

posted @ 2021-07-26 15:51  暮色渐浓  阅读(2067)  评论(0)    收藏  举报