计算机视觉技术与应用综述(动作识别)--A Survey for Action Recognition Research

这篇论文主要阐述了现有的动作识别的研究方法,主要有基于局部表示的方法、动作识别的深层架构方法。

1、        基于局部表示的方法

动作识别的局部表示遵循兴趣点检测、局部描述符提取和局部描述符聚合的管道。

2、        深层架构方法

从分类的角度来看,我们可以将应用于动作识别的建筑分为四类:时空网络、多流网络、深层生成网络、时间相干网络。

2.1 时空网络

使用深度网络进行动作识别的一个直接方法是在卷积操作中加入时间信息。为了实现这一点,[34]中引入了3D卷积网络。为了对动作进行分类,[40]建议将从三维卷积网络中提取的特征输入到LSTM网络中。分别训练3D卷积网络和LSTM网络。首先,使用带注释的动作数据训练三维卷积网络。获得三维卷积网络后,利用卷积特征对LSTM网络进行训练(网络结构见图8)。[39]提出了另一种基于LSTM的架构,利用复合网络的端到端训练,如图14所示。由此产生的长期循环卷积网络(Long-term Recurrent Convolutional Network, LRCN)不仅在识别动作方面很成功,而且在图像和视频字幕方面也很成功。通过端到端学习和CNN-LSTM卷积,以数据驱动的方式计算时空接受滤波器参数。

2.2 多流网络

空间流网络接受原始视频帧,时间流网络获得光流场作为输入。这两个流被融合在一起使用softmax分数。光流帧是两个流网络中唯一使用的运动相关信息。这就提出了一个问题:两个流网络能否捕捉细微但长期的运动动力学(这种运动不能用光流来模拟)。

2.3 深层生成模型

考虑到网络上海量且不断增加的视频,设计一种几乎不需要监管或根本不需要监管的深度模型的潜在回报超出了人们的想象。

引入了Dynencoder,一类深度自动编码器,以捕获视频动态。在其最基本的形式,一个动态编码器由三层组成。第一层将输入映射到隐藏状态ht。第二层是预测层,使用当前状态预测下一个隐藏状态。最后一层是从预测的隐藏状态到生成估计输入帧的映射。为了降低训练复杂度,将网络参数分两阶段进行学习。在预训练阶段,分别对每一层进行训练。一旦完成预训练,就执行端到端的微调。

引入了图15所示的LSTM自动编码器模型。LSTM自动编码器由两个RNNs组成,即编码器LSTM和解码器LSTM。编码器LSTM接受一个序列(作为输入)并学习相应的紧凑表示。编码器LSTM的状态包含序列的外观和动态。因此,序列的紧凑表示被选择为编码器LSTM的状态。LSTM自动编码器也可以用来预测序列的未来。在实践中,一个既能重建输入序列又能预测其未来的复合模型能提供最准确的响应。

引入了对抗网络,其中生成模型与被称为对手的有区别的模型竞争。区分模型学会了判断样本是来自生成模型还是来自数据本身。

2.4 时间相干网络

时间相干性是一种弱监督的形式,表示连续的视频帧在语义和动态上都是相关的(即不太可能出现突然的运动)。使用元组进行训练,以确定给定序列是否连贯。经验表明:1)与其他有监督的预训练方法(如ImageNet)相比,元组学习更关注人的姿态。2)在动作丰富的帧中选择元组,可以避免正元组和负元组之间的歧义。3)与从零开始训练的网络相比,基于时间相干性的预训练网络具有提高准确率的潜力。

然而,时间一致性并不总是一个可以依赖的强假设。Rank Pooling是捕获序列时间演化的一种有效方法。在最初的形式中,视频表示的学习(通过排名)和动作分类是分开进行的。

3、        结论

尽管与静态图像分析相似,但视频数据分析要复杂得多。一个成功的视频分析解决方案不仅需要克服诸如尺度、类内差异和噪声等变化,而且还必须分析视频中的运动线索。人的动作识别由于其广泛的应用和关节动作所产生的运动模式的复杂性,可以被认为是视频分析中的皇后问题。在这个调查中,我们调查了行动识别现有解决方案的几个方面。我们首先回顾基于手工表示法的方法,然后关注从深层架构获益的解决方案。我们对这两种流行的研究方向进行了比较分析。

 

更多计算机视觉技术与应用综述可参考:https://blog.csdn.net/yukinoai/article/details/99713692

posted @ 2020-11-27 10:31  一直特立独行的猪  阅读(835)  评论(1)    收藏  举报