【AAAI 2018】论文阅读:Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

论文地址:https://arxiv.org/abs/1801.07455

Github:https://github.com/yysijie/st-gcn

单位:港中文

摘要

人体骨架动力学为人体动作识别提供了重要的信息。传统的骨骼建模方法通常依赖于人工部件或遍历规则,因此表达能力有限,难以泛化。在本文中,作者提出了一个新的动态骨架模型称为空间-时间图卷积网络(ST-GCN),它超越了以往方法的局限性,可以自动从数据中学习空间和时间模式。这种方法不仅表达能力更强,而且泛化能力也更强。在两个大型数据集上,Kinetics和NTU-RGBD,它实现了比主流方法的实质性改进。

1.Introduction

人体动作识别在视频理解中发挥着重要作用,近年来已成为一个活跃的研究领域。一般来说,人类行为可以从多种模式中识别modalities(Simonyan and Zisserman 2014; Tran et al. 2015; Wang, Qiao, and Tang 2015; Wang et al. 2016; Zhao et al. 2017),如外观、深度、光流和人体骨骼(Du, Wang, and Wang 2015; Liu et al. 2016),在这些模式中,动态的人类骨骼通常能传达与其他模式互补的重要信息。然而,动态骨架的建模相对较少受到人们的关注。在这项工作中,我们系统地研究了这一模式,旨在开发一种有原则和有效的方法来建模动态骨架,并利用它们进行动作识别。

动态骨架形态可以自然地用人体关节位置的时间序列表示,可以是二维坐标或三维坐标。然后通过分析人体动作模式来识别人体动作。早期使用骨骼进行动作识别的方法只是简单地在单个时间步上使用关节坐标来形成特征向量,并对其进行时间分析(Wang et al. 2012; Fernando et al. 2015)。这些方法有所局限,因为它们没有明确地利用关节之间的空间关系,而这对理解人类行为至关重要。最近, 新的方法试图利用关节之间的自然连接已经被开发出来(Shahroudy et al. 2016; Du,Wang, and Wang 2015)。这些方法显示了令人欣喜的改进,这表明了连通性的重要性。然而,现有的大多数方法都依赖于手工制作的特征或规则来分析空间模式。因此,为特定应用设计的模型很难推广到其他应用。

为了超越这些限制,我们需要一种新的方法,可以自动捕捉嵌入在关节空间配置和它们的时间动态中的模式。这就是深度神经网络的优势所在。然而,正如前面提到的,骨架是图(graphs)的形式,而不是2D或3D网格,这使得使用卷积网络等经过验证的模型变得困难。最近,图神经网络(Graph Neural networks, GCNs)将卷积神经网络(convolutional Neural networks, CNNs)推广到任意结构的图形,受到越来越多的关注,并成功地应用于许多应用中,如图像分类(Bruna et al. 2014)、文档分类(Defferrard, Bresson, and Vandergheynst 2016)和半监督学习(Kipf和Welling 2017)。然而,前面沿着这条线的大部分工作都假设输入是一个固定的图形。GCNs在大规模数据集(如人体骨骼序列)上的动态图建模的应用还有待探索。

在本文中,我们提出通过将图神经网络扩展到一个时空图模型,即时空图卷积网络,来设计一个用于动作识别的骨架序列的通用表示(ST-GCN)。如图1所示,该模型建立在一系列骨架图之上,其中每个节点对应人体的一个关节。边有两种类型,即符合节理自然连通性的空间边和跨越连续时间步长的相同节理连接的时间边。在此基础上构建了多层次的时空图卷积,实现了信息在时空维度上的整合。

ST-GCN的层次特性消除了手工制作特征分配或遍历规则的需要。这不仅拥有了更强的表达能力,从而得到更好的表现(正如我们的实验所显示的那样),也很容易将其推广到不同的环境中。在通用的GCN公式的基础上,我们还研究了新的设计图卷积核的策略,灵感来自于图像模型。

本工作的主要贡献有三个方面:

(1)提出了ST-GCN,一种用于动态骨架建模的通用的基于图的公式,这是第一个将基于图的神经网络应用于此任务的方法。

(2)本文提出了几种设计卷积核的原则,满足ST-GCN骨架建模的具体要求。

(3)在两个大规模的基于骨骼的动作识别数据集上,与之前使用手工制作特征或遍历规则的方法相比,所提出的模型获得了更好的性能,在手工设计上花费的精力大大减少。

2. Related work

Neural Networks on Graphs  将神经网络泛化为具有图结构的数据是深度学习研究中的一个新兴课题。所讨论的神经网络体系结构包括两种递归神经网络(Tai,Socher and Manning 2015; Van Oord, Kalchbrenner,and Kavukcuoglu 2016)和卷积神经网络(CNNs) (Bruna et al. 2014; Henaff, Bruna, and LeCun 2015; Duvenaud et al. 2015; Li et al. 2016; Defferrard, Bresson, and Vandergheynst 2016)。这项工作更多地与cnn或图卷积网络的推广有关(gcn)。在图上构造GCNs的原理一般有两种:1)光谱视角,即以光谱分析的形式考虑图卷积的局部性(Henaff, Bruna, and Le-Cun 2015; Duvenaud et al. 2015; Li et al. 2016; Kipf and Welling 2017);2)空间视角,卷积滤波器直接应用于图节点及其邻居(Bruna et al. 2014; Niepert, Ahmed, and Kutzkov 2016)。本文参考第二种方法,在空间域上构造CNN滤波器,将每个滤波器的应用限制为每个节点的1-neighbor。

Skeleton Based Action Recognition 人体骨骼和关节轨迹对光照变化和场景变化具有鲁棒性,且深度传感器或姿态估计算法精度高,易于获取(Shotton et al. 2011; Cao et al. 2017a)。因此,有一种广泛的基于骨架的动作识别方法。这些方法可以分为基于特征的手工方法和深度学习方法。第一种方法设计了几个手工制作的特征来捕捉关节运动的动力学。这些可能是关节轨迹的协方差矩阵(Hussein et al. 2013),关节的相对位置(Wang et al. 2012),或身体部位之间的旋转和平移(Vemulapalli, Arrate和Chellappa 2014)。近年来,随着深度学习的成功,基于深度学习的骨架建模方法迅速兴起。这些工作使用了循环神经网络(Shahroudy等人,2016; Zhu et al. 2016;Liu et al. 2016; Zhang, Liu, and Xiao 2017)和时序CNN (Li et al. 2017;Ke等人2017年; Kim和Reiter 2017)以端到端方式学习动作识别模型。在这些方法中,许多都强调了人体部分关节建模的重要性。但是这些部分通常是使用领域知识明确分配的。我们的ST-GCN是第一个将图形cnn应用到基于骨骼的动作识别任务中。与以往的方法不同的是,它利用图卷积的局部性和时间动态特性来隐式地学习身体部位信息。通过消除手工部位分配的需要,模型更容易设计,并有效地学习更好的动作表示。

3. Spatial Temporal Graph ConvNet

3.1 Pipeline Overview

基于骨架的数据可以从动作捕捉设备中获得,也可以从视频中获得姿态估计算法。通常数据是一组帧的序列,每一帧都有一组关节坐标。以2D或者3D坐标系形式的人体关节序列,作者构建了一个以关节为图节点,以人体结构和时间的自然连接为图边的时空图。因此ST-GCN的输入是图节点上的关节坐标向量。这可以被认为是一种基于图像的cnn的模拟,其中输入是由驻留在二维图像网格上的像素强度向量构成的。对输入数据进行多层次的时空图卷积运算,在图上生成更高层次的特征图。然后由标准SoftMax分类器将其分类为相应的动作类别。采用反向传播的方式对整个模型进行端到端的训练。接下来介绍ST-GCN模型中的组件。

3.2 Skeleton Graph Construction

骨骼序列通常用人体每个关节在每一帧中的2D或3D坐标表示。之前使用卷积进行骨骼动作识别的工作(Kim and Reiter 2017)连接所有关节的坐标向量,形成每帧单个特征向量。

 

posted @ 2022-03-10 15:50  理想很难  阅读(307)  评论(0)    收藏  举报