【ICRA 2021】【简读】论文阅读: Graph Attention Spatio-temporal Convolutional Network for 3D Human Pose Estimation in Video

论文地址:https://arxiv.org/abs/2003.14179

Github: https://github.com/fabro66/GAST-Net-3DPoseEstimation

project:http://www.juanrojas.net/gast/

单位:广工、港中文

 

摘要

三维姿态中的时空信息是解决遮挡和深度模糊的关键,以前的方法要么关注时间上下文,要么关注嵌入固定长度的时空信息的局部到全局的框架。目前并没有有效的方法灵活地捕捉变化的时空序列,并有效的实时实现三位姿态估计。本文作者改进了对人体骨架运动学约束的学习:通过注意力机制对局部和全局信息建模实现姿态、局部运动学连接的对称性。为了适应单帧和多帧估计,采用扩展时间模型除了变化的骨架序列。同样重要的,作者精心设计了空间语义和时序依赖的交互,以实现协同效应,为此作者提出了一个简单但是有效的图注意时空卷积网络(GAST-Net),网络由交错的时间卷积块和图注意块组成。在两个具有挑战性的基准数据集上(Human3.6M和HumanEva-I)和YouTube视频上的实验表明,作者的方法有效地缓解了深度模糊和自遮挡,推广到上半身估计,并在2d到3d视频姿态估计上具有一定的竞争力。

 

1&2. Introduction&Related works

3. Approach

Fig.3 为GAST-Net网络架构图,包含两个Temporal Convolution Block 和三个 Graph Attention Block,给定一个2D pose sequence,输出一帧3D pose预测样本。Graph Attention Block左侧为local graph attention layer,右侧为global graph attention layer。

A. Temporal Convolutional Network

这部分和videopose3D有点像,卷积同样采用空洞卷积以扩大感受野,看了下参考文献,确实是在其基础上改进的,主要区别是作者将输入的2D pose sequence表示为三维向量(T, N, C),T是接受域的个数,N为每一帧的关节数,C为坐标空间(x, y)。为了保存时间步长的空间信息,作者将原始的一维卷积替换为核大小为k * 1的二维卷积,将批归一化也改为2D形式,在初始时即对数据进行归一化,dropout只应用在第二次卷积以提高泛化。

B. Local Attention Graph

作者在SemGCN的基础上构造骨架图(sekeleton graph),

图的结构可以由一个邻接矩阵A和表示自连接的单位矩阵I来初始化,A表示关节之间存在的连接,A~ = (A + I)表示GCN的卷积核,给定第l层的的结点特征,通过卷积后得到后一层的特征:

W是用于转换输出通道的可学习矩阵,M是可学习的掩膜矩阵,圈圈是基于元素的乘法算子,ρ是一个Softmax函数,它将一个节点的特征贡献归一化到图中相应的相邻节点。引入一组特征掩膜矩阵,将式(1)变化为:

其中||表示通道级联,wc是矩阵W的第c行。

Eqtn. 2联合学习相邻节点间的唯一语义,然而,非常值得注意的是,这种一阶邻域表示很差地模拟了(i)以躯干为中心的人体的对称结构和(ii)人体的运动学约束。因此,作者提出,结构知识有关对称功能的人体需要明确考虑。此外,一级邻节点表示难以模拟人类空间关系的另一个原因是,关节约束局限于一级邻居关节。更准确地说,位于运动链末端的远端关节,如手腕、踝关节和头部,只有一个一级相邻关节。因此,由于存在一级邻域,它们在空间中的位置无法得到有效定位。这种关节是建模误差最大的单一来源。尽管如此,作者还是利用了运动链各子段之间的关系;也就是下肢(踝-膝),上肢(腕-肘-肩)和中轴体(头-颈-胸)以减轻位置模糊。

基于上述局限性,作者设计了两种新颖的卷积核:(1)对称矩阵A~s,对具有对称性的部件(躯干关节)进行人体骨骼对称结构编码。(2)邻接矩阵A~c,明确编码远端关节的一级和二级(运动学)连接(各自对应如 脚踝-膝盖、脚踝-髋关节)。其余节点仅通过一级连接建模。

这两个卷积核都运用在两个不同的GCNs中,每个GCNs后面跟着批量归一化和校正的线性单元:

C. Global Attention Graph

非连接关节之间的关系,也就是存在于骨骼子关节(如手腕-踝关节)之间的关系,在编码整体姿势和约束信息方面发挥着关键作用。因此,断开连接表示有助于解决深度歧义和遮挡问题。为了自适应和有效地编码非局部关系,作者提出了一个具有多头注意机制的全局端到端GCN,该机制扩展了式(3)中引入的机制。

K为注意力头个数,Bk是一个自适应全局邻接矩阵,Ck是可学习的全局邻接矩阵,Wk是一个可变换矩阵,本文中作者设置了K = 4个平行的注意头。Bk表示一个数据相关的矩阵,它为每个节点学习一个唯一的图,用下式来判断节点之间是否存在连接以及连接的强度,这部分直接用的是st-gcn中的注意力函数:

主要是看一下本文的方法,后面大概看了下,不做翻译了。

posted @ 2022-03-09 21:37  理想很难  阅读(687)  评论(0)    收藏  举报