用离散标记重塑人体姿态:VQ-VAE实现关键点组合关系编码

在人体姿态估计领域,传统方法通常将关键点作为基本处理单元,这些关键点在人体骨架结构上代表关节位置(如肘部、膝盖和头部)的空间坐标。现有模型对这些关键点的预测主要采用两种范式:直接通过坐标回归或间接通过热图(heat map,即图像空间中的密集概率分布)进行估计。尽管这些方法在实际应用中取得了显著效果,但它们往往将每个关键点作为独立单元处理,未能充分利用人体骨架结构中固有的关键点间组合关系。
如果我们转换思路,将姿态表示为一组学习到的、离散的标记(token)组合,这些标记不仅仅编码原始坐标或热图信息,而是捕获关键点之间的共享模式、对称性和结构化关系,会带来怎样的优势?

受2023年发表的研究论文《Human Pose As Compositional Tokens》启发,本文构建了一个姿态重建模型,实现了上述概念。我们将详细介绍该方法第一阶段的实现过程:训练组合编码器(Compositional Encoder)、向量量化(Vector Quantization, VQ)码本和姿态解码器(Pose Decoder)——这些组件共同构成了一个用于学习姿态结构紧凑、离散表示的系统。

与传统的热图或坐标回归方法相比,基于标记的表征方法能够有效捕获关键点之间的语义和空间依赖关系。这种表征形式使模型能够更好地泛化到未见过的姿态配置,并且便于将这些离散标记整合到下游任务中,如动作识别或姿态分类。

合成火柴人数据集

为简化实验过程并专注于方法本身,我们创建了一个火柴人的合成数据集。每个火柴人实例由13个二维关键点精确定义,这些关键点包括头部、颈部、肩膀、肘部、手部、腰部、膝盖和脚部。该数据集采用即时生成方式,支持随机但符合人体结构约束的肢体配置、微小的姿态变化以及基于旋转的数据增强。

图1:火柴人示例,其中标注了关键点位置

 

https://avoid.overfit.cn/post/87c3039e65974bf693647e4365b55434

posted @ 2025-04-15 12:02  deephub  阅读(22)  评论(0)    收藏  举报