自我中心运动(Egocentric Motion) 的学习

自我中心运动(Egocentric Motion)也是3D卷积层的学习。 单模态输入(如仅使用稀疏传感器或第一视角视频)存在以下挑战: 运动跟踪的歧义性:稀疏传感器(如头、手腕的三点姿态)无法捕捉全身运动(如下肢动作),导致“一对多”映射问题。

运动理解的局限性:第一视角视频受限于视角,难以准确捕捉全身动作的细节。 EgoLM 提出通过多模态融合(传感器+视频)和多任务联合训练(跟踪+理解),利用语言模型的强大生成能力,解决上述问题。 二、方法概述 EgoLM的训练流程分为三个阶段: 1. 运动分词器(Motion Tokenizer) 目标:将连续的运动数据转化为离散的标记序列,便于语言模型处理。 技术实现: 使用VQ-VAE(矢量量化变分自编码器)编码运动数据,生成低维潜在特征。产品量化(Product Quantization):将潜在特征分割为多个子空间,分别量化以提高码本表达能力。损失函数包括重构损失(L1损失)和码本对齐损失,确保运动数据的精确重建。 2. 运动预训练(Motion Pre-training) 目标:让语言模型学习运动标记的分布规律。 实现步骤: 扩展预训练语言模型(如GPT-2)的嵌入层和输出层,支持运动标记的生成。 基于自回归生成(Next-Token Prediction)训练模型,使其能生成合理的运动序列。 3. 多模态指令调优(Multi-Modal Instruction Tuning) 目标:整合多模态输入(传感器、视频、文本),实现任务统一。 关键技术: 模态编码:传感器数据通过轻量级时序编码器处理,视频通过CLIP编码器提取语义特征。 指令模板:定义任务指令(如“生成运动”或“生成文本描述”),将多模态特征映射到语言模型空间。 联合训练:通过多任务学习,利用运动跟踪的监督信号增强运动理解任务。 三、实验与结果 1. 数据集 Nymeria数据集:包含全身运动数据(Xsens Mocap)、第一视角视频(Aria眼镜)和人工标注的运动描述。 训练集:147.89小时运动跟踪数据,15.77小时运动理解数据。 五、局限性 重建误差:VQ-VAE的量化过程限制了运动跟踪的上界性能。 视频语义理解的不足:CLIP编码器难以精确定位视频中的交互物体。 幻觉问题:语言模型可能生成与输入不符的描述。

运动分词器(Motion Tokenizer)是 EgoLM 框架的核心模块,其目标是将连续的全身运动数据(如关节角度、旋转速度)转化为离散的标记序列,使语言模型能像处理文本一样生成或理解运动。具体实现分为以下步骤: 1. 运动表示与预处理 输入数据: 人体运动被表示为时间序列,每帧包含:
标准化:对全局平移进行归一化,避免因坐标系偏移引入噪声。
2. VQ-VAE架构 VQ-VAE(矢量量化变分自编码器)通过编码-量化-解码流程,将连续运动映射为离散标记: a. 编码器(Encoder) 使用全卷积网络处理任意长度的运动序列。 输出潜在特征
b. 量化(Quantization) 码本设计:
量化过程: 对每个子空间的潜在特征
c. 解码器(Decoder)
3. 损失函数设计 重构损失(Reconstruction Loss):

码本对齐损失(Codebook Commitment Loss):

关键技术细节 产品量化的优势: 通过分解高维潜在空间为多个子空间,显著提升码本表达能力。 例如,2个码本各含8192条目时,总组合数为 8192平方≈6.7×10的7次方,远超单一码本的容量。 动态码本更新: 使用指数移动平均(EMA)更新码本向量,提高利用率。 码本重置策略(Codebook Reset)防止部分码本条目长期未被使用。 5. 输出与下游任务适配 生成的离散标记序列 W 可直接输入语言模型(如GPT-2),通过自回归生成完成运动跟踪或文本描述任务。 例如,输入传感器数据和视频编码后的特征,语言模型根据指令模板生成运动标记或自然语言。 6. 实际效果与改进方向 效果: 在Nymeria数据集上,运动分词器的重构误差(MPJPE)低至34.49 mm(见表4)。 产品量化相比单码本,显著降低量化误差(从51.60 mm降至34.49 mm)。 改进方向: 引入更精细的码本设计(如分层量化)。 结合视频中的物体检测信息,增强运动语义的离散表示。

总结 运动分词器通过VQ-VAE与产品量化技术,将连续的高维运动数据转化为紧凑的离散标记,为语言模型的多模态生成奠定了基础。其核心在于平衡重构精度与码本表达能力,同时通过多任务损失函数优化量化过程。这一设计使得EgoLM能够灵活处理运动跟踪与理解任务,并为未来扩展(如结合语音指令)提供了可能性。

posted @ 2025-06-18 11:00  明禅城  阅读(14)  评论(0)    收藏  举报