语义分割中的nonlocal[12]- ORDNet: Capturing Omni-Range Dependencies for Scene Parsing

ORDNet: Capturing Omni-Range Dependencies for Scene Parsing
https://arxiv.org/abs/2101.03929
作者观察到self-attention中很多点的响应范围过大,于是提出了Middle-Range的self-attention以及Reweighed Long-Range

如上图,作者认为绿色的点的attention响应范围过大,太远处的响应会不利于feature aggregation,于是提出下面的两个branch


MR就是将原来的图分为4块,分别做non-local
RlR就是将attention map沿着col的方向求和后经过sigmoid做weight

结果中没跑cityscapes
浙公网安备 33010602011771号