摘要:
前言 Vision Transformers 中,输入图像的空间维度会出现相当大的冗余,从而导致大量的计算成本。因此,本文中提出了一种由粗到精的视觉变换器(CF-ViT)来减轻计算负担,同时保持性能。CF-ViT 以两阶段的方式实现网络推理。在粗略推理阶段,输入图像被分成一个小长度的补丁序列,用于计 阅读全文
posted @ 2023-03-14 10:29
CV技术指南(公众号)
阅读(230)
评论(0)
推荐(0)