摘要:
前言 ViT通过简单地将图像分割成固定长度的tokens,并使用transformer来学习这些tokens之间的关系。tokens化可能会破坏对象结构,将网格分配给背景等不感兴趣的区域,并引入干扰信号。 为了缓解上述问题,本文提出了一种迭代渐进采样策略来定位区分区域。在每次迭代中,当前采样步骤 阅读全文
posted @ 2021-12-01 17:19
CV技术指南(公众号)
阅读(339)
评论(0)
推荐(0)
浙公网安备 33010602011771号