摘要:
前言 本文介绍了一个端到端的用于视觉跟踪的transformer模型,它能够捕获视频序列中空间和时间信息的全局特征依赖关系。在五个具有挑战性的短期和长期基准上实现了SOTA性能,具有实时性,比Siam R-CNN快6倍。 本文来自公众号CV技术指南的论文分享系列 关注公众号CV技术指南 ,专注于 阅读全文
posted @ 2021-12-10 21:11
CV技术指南(公众号)
阅读(997)
评论(0)
推荐(0)
浙公网安备 33010602011771号