Rethinking Transformer for Long Contextual Histopathology Whole Slide Image Analysis

Rethinking Transformer for Long Contextual Histopathology Whole Slide Image Analysis

LongMIL:构建高秩且稀疏的掩码,从而减少自注意力的计算复杂度

动机

病理图片WSI分析可以看作一个长序列问题。

img

当序列长度远大于特征长度时(\(n \gg d\)),transformer的浅层注意力更关注局部的上下文,而深层注意力更关注全局。然而,注意力矩阵的秩依然小,使得全局与局部层面的注意力交互混乱。\(2dn\)的点难以建模\(n\times n\)的关系。

img

方法

每一层只关注局部的上下文关系 \(\rightarrow\) 高秩、更稀疏

img

最终整体的网络结构如图:

img

实验

img

总结

本文人工设计了一种自注意力掩码用于减少长序列场景下的Transformer计算复杂度。虽然没有经过严谨推导,但是本文方法的计算复杂度应该为\(\mathcal{O}(nd)\)

posted @ 2025-11-04 10:33  Bcai  阅读(9)  评论(0)    收藏  举报