摘要: 摘要 ​ 在本文中,我们研究了掩码自动编码器(MAE)预训练的视频基于匹配的下游任务,包括视觉目标跟踪(VOT)和视频对象分割(VOS)。MAE的一个简单扩展是在视频中随机掩码帧块并重建帧像素。然而,我们发现这种简单的基线严重依赖于空间线索,而忽略了帧重建的时间关系,从而导致VOT和VOS的时间匹配 阅读全文
posted @ 2023-04-17 16:46 cxy小天 阅读(254) 评论(0) 推荐(0)