【论文阅读】2020_A Spatio-temporal Transformer for 3D Human Motion Prediction
在这篇文章中,我们提出了一个新的基于变压器的架构,用于三维人体运动的生成建模任务。以前的工作通常依赖于基于RNN的模型,考虑到较短的预测层位很快达到一个稳定且通常不可信的状态。相反,我们的重点在于在更长的时间范围内产生可信的未来发展。为了缓解向静态姿态收敛的问题,我们提出了一种新的架构,该架构利用了最近提出的自我关注概念。3D运动预测的任务本质上是时空的,因此所提出的模型学习骨骼关节的高维嵌入,随后是解耦的时空自我关注机制。这允许模型直接访问过去的信息,并显式地捕获时空相关性。我们根据经验表明,这减少了随时间推移的误差累积,并允许在长达20秒的长时间范围内产生感觉上似是而非的运动序列,以及准确的短期预测。
我们现在详细解释所提出的时空转换器的架构。有关概述,请参考图2。我们的方法首先将骨架分解成点,并独立地将它们投影到更高维度的表示空间中。这一步可以认为是学习关节角的嵌入。我们后来通过使用由注意块识别的相关的关节间和关节内依赖性来细化关节表示。最后,我们从构成下一个姿势的预测关节组装骨架。我们的方法3使用了Transformer [11]的构造块,但有两个主要区别:(1)解耦的时空注意机制和(2)完全自回归模型。
    架构概述。我们从将每个关节投影到一个嵌入空间开始。在注入位置编码和应用删除之后,嵌入被馈送到连续的关注层。我们在[11]的基础上采用了一种新的时空多头注意机制。它被分成一个临时注意块和一个临时块,前者通过查看同一关节的过去实例来更新关节的嵌入,后者在当前时间步长中出现在所有关节上。最后,我们通过将嵌入投影回关节空间并使用从输入到输出的剩余连接来估计下一个姿势,如下文[4]。
结论
    介绍了一种新颖的时空转换器网络,用于三维人体运动的生成建模。我们假设该任务可以被解释为一个纯粹的生成性建模任务,并提出了一种新的架构,该架构通过其解耦的时间和空间注意块来学习关节内和关节间的依赖性。我们表明,自我关注概念在做出短期和长期预测方面都非常有效。它减轻了在基于RNN的架构中观察到的长期依赖性问题,并且能够根据周期性运动类型(如行走或跑步)合成长达20秒的运动序列。我们还证明了注意机制可以用来获得关于模型行为的见解。最后,我们的消融研究表明,我们的模型可以使效率更高的目标数据集具有更长的频率。

                
            
        
浙公网安备 33010602011771号