论文笔记5：TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation

1 引言

传统CNN网络很难捕获长距离的依赖关系，而且一味的加深网络的深度会带来大量的计算冗余。

文章提出了一种并行分支的TransFuse网络，结合transformer和CNN两种网络架构，能同时捕获全局依赖关系和低水平的空间细节，文中还提出了一种BiFusion module用来混合两个分支所提取的图像特征。

TransFuse在多个医学分割任务中达到SOTA，并在降低参数和提高推理速度方面得到很大的提升。

TransFuse包含两个分支，左边是transformer分支，右边是CNN分支，模型通过BiFusion层整合两个分支的特征，然偶经过上采样和attention-gated skip-connection输出分割结果。

Transformer Branch是一个完整的编解码结构，编码器部分使用的是transformer结构，解码器部分使用的是SERT中提到的渐进上采样（PUP）结构。

CNN Branch使用ResNet的第四层，第三层和第二层的输出作为这一分支的输出，由于transformer可以捕获全局的上下文信息，故而CNN Branch并不需要设计的很深。

BiFusion Module主要由通道注意力和空间注意力组成，对Transformer Branch做通道注意力，对CNN Branch做空间注意力。然后经过卷积，相乘，拼接，残差操作，实现两个分支的特征融合。

最后通过上采样和attention-gated skip-connection输出分割结果。

文章使用transformer结构捕捉图像的全局上下文信息，并利用这一优点减小CNN结构的层数，只是用很少的卷积层提取局部空间信息作为transformer的补充，并通过BiFusion进行特征融合，最后通过Attention-gate，上采样输出分割结果。文中一共出现四种注意力机制。

posted @ 2021-07-26 15:51 暮色渐浓阅读(2088) 评论(0) 收藏举报

刷新页面返回顶部