摘要: 视觉变换器(ViT)已成为众多工业级视觉解决方案的事实标准选择。但由于每一层都计算自注意力,这导致其推理成本对许多场景而言是不可接受的,因为自注意力在标记数量上具有平方的计算复杂度。另一方面,图像中的空间信息和视频中的时空信息通常是稀疏和冗余的。 LookupViT旨在利用这种信息稀疏性来降低ViT 阅读全文
posted @ 2024-10-25 09:27 晓飞的算法工程笔记 阅读(293) 评论(0) 推荐(0)