[action] MMLab: Slow-Fast Model
Meta: PySlowFast
![]()
架构设计

MMAction
通用视觉框架 OpenMMLab 第一讲 计算机视觉与 OpenMMLab 概述
基本就是 history talking。

-
TSM是啥?
3D计算太贵,然后就有了如此的思路。
-
- 3D网络在精度方面很有优势,但由于3D卷积计算量大,训练和推理耗时较大,难以用于产业实践;
- 而2D网络虽然计算量较小,训练和预测速度快,但对时序信息的建模能力相对不足,精度普遍偏低。
超过同等Backbone下的3D模型SlowFast,且推理速度提升了4.5倍。

基础教学,概念强化
通用视觉框架 OpenMMLab 第二讲 Image Classification and MMClassification
-
模型

50层的版本有五个残差模块。除去第一个卷积层,还有4个残差: num_stages=4。

-
数据
pipeline参数这里包含了“数据增强”的部分。

以下是pipeline相关的配置。

-
训练
Training job的一些配置。

通用视觉框架 OpenMMLab Lecture 3: Object Detection and MMDetection
没啥可看的,与cls思路一样。
没啥可看的,只是用英文说了一边。
SlowFast Networks
Video Tutorial: https://youtu.be/J2YC0-k57NM?t=2445
Paper: SlowFast Networks for Video Recognition


Ref: SlowFast 论文关键点解读
受到这样的启发以后,作者又进一步削弱了其空间理解能力(把RGB图像改成了灰度图,光流等)发现,去掉色彩信息以后的灰度图作为输入,模型的复杂度降低,但是准确率不受影响,实验如下图(右)

End.

浙公网安备 33010602011771号