视频识别0
https://zhuanlan.zhihu.com/p/79521655
视频分类/行为识别是计算机视觉领域中非常有挑战性的课题,因为其不仅仅要分析目标体的空间信息,还要分析时间维度上的信息,如何更好的提取出空间-时间特征是问题的关键。本文总结了该领域的技术进展和相关数据集,技术进展从传统特征法到深度学习中的3DCNN,LSTM,Two-Stream等。
1 视频分类/行为识别问题
首先我们要明确这是一个什么问题,基于视频的行为识别包括两个主要问题,即行为定位和行为识别。行为定位即找到有行为的视频片段,与2D图像的目标定位任务相似。而行为识别即对该视频片段的行为进行分类识别,与2D图像的分类任务相似。
本文聚焦的是行为识别,即对整个视频输入序列进行视频分类,一般都是经过裁剪后的视频切片。接下来从数据集的发展,传统方法,深度学习方法几个方向进行总结。
2 视频分类/行为分析重要数据集
深度学习任务的提升往往伴随着数据集的发展,视频分类/行为识别相关的数据集非常多,这里先给大家介绍在论文评测中最常见的3个数据集。
2.1 HMDB-51
HMDB-51共51个类别,6766个短视频。数据集地址:http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#dataset,发布于2011年
数据来源非常广泛,包括电影,一些现有的公开数据集,YouTube视频等。从中选择了51个类别,每一个类别包含101个以上视频。
分为5大类:
常见的面部动作(smile,laugh,chew,talk)
复杂的面部动作(smoke,eat,drink)
常见的肢体动作(climb,dive,jump)
复杂的肢体动作(brush hair,catch,draw sword)
多人交互肢体动作(hug,kiss,shake hands)
下面是其中一些维度的统计,包括姿态,相机运动等。
2.2 UCF-101
UCF-101共101个类别,13320个短视频。数据集地址:https://www.crcv.ucf.edu/research/data-sets/human-actions/ucf101/,发布于2012年。
UCF-101是目前动作类别数、样本数最多的数据集之一,包含5大类动作:人与物体互动、人体动作、人与人互动、乐器演奏、体育运动。总共包括在自然环境下101种人类动作,每一类由25个人做动作,每个人做4-7组,视频大小为320×240。正因为类别众多加上在动作的采集上具有非常大的多样性,如相机运行、外观变化、姿态变化、物体比例变化、背景变化等等,所以也成为了当前难度最高的动作类数据集挑战之一。
各个类别的分布如上,相对还是比较均匀的,UCF-101是视频分类/行为识别方法必须评测的标准。
2.3 Kinetics-700 dataset
Kinetics-700 dataset被用于ActivityNet比赛,包含约650000个视频,700个类别。数据集地址:https://deepmind.com/research/open-source/open-source-datasets/kinetics/,发布于2019年。
ActivityNet比赛始于2016的CVPR,是与ImageNet齐名的在视频理解方面最重要的比赛。在这个比赛下的Task A–Trimmed Action Recognition比赛是一个视频分类比赛,2019年的比赛使用kinetics-700数据集,在此之前还有2017年的kinetics-400和2018年的kinetics-600。
数据集是Google的deepmind团队提供,每个类别至少600个视频以上,每段视频持续10秒左右,标注一个唯一的类别。行为主要分为三大类:人与物互动,比如演奏乐器;人人互动,比如握手、拥抱;运动等。即person、person-person、person-object。
除了以上数据集,比较重要的还有Sports-1M,YouTube-8M等,篇幅所限,就不一一描述,大家可以参考文献[1]。
如果不能下载数据集,可以移步有三AI知识星球获取。

浙公网安备 33010602011771号