摘要: 前言: transformer在视频理解方向的应用主要有如下几种实现方式:Joint Space-Time Attention,Sparse Local Global Attention 和Axial Attention。这几种方式的共同点是采用ViT中的方式将图像进行分块,而它们之间的区别在于如何 阅读全文
posted @ 2021-05-12 23:42 CV技术指南(公众号) 阅读(1096) 评论(0) 推荐(0) 编辑