伯克利顶刊开源论文 | PPO算法与4D重建!部署到宇树G1人形机器人成功从日常视频中学习跨场景技能

伯克利团队最新开源的VideoMimic系统,实现了从单目视频到人形机器人技能的端到端转化。通过真实-模拟-真实(Real-to-Sim-to-Real)的流程,机器人不仅能模仿视频中的动作,还能根据环境上下文(如地形、家具)自动调整行为,实现跨场景泛化。该团队开源了重建代码、策略训练框架和视频数据集,为社区提供了全新的人形机器人学习范式!
1、算法框架
1.核心目标
  • 传统机器人控制依赖预设任务标签或手工设计环境交互规则,而人类通过观察他人动作即可快速适应新环境。这种根据环境上下文自动执行合适动作的能力,被称为上下文控制
  • VIDEOMIMIC 的目标是让机器人通过模仿人类视频,学会在无显式任务标签的情况下,基于环境几何和目标指令自主选择行为。
2. VIDEOMIMIC 整体管道
VIDEOMIMIC 的核心流程分为视频重建→仿真训练→真实部署三个阶段,形成闭环的“数据驱动-仿真优化-物理验证”框架:
  • 阶段 1:真实场景重建 输入单目 RGB 视频(如手机拍摄),联合重建4D 人体-场景几何(人体运动轨迹+环境三维结构),并将人类动作重定向到人形机器人骨骼,生成物理可行的参考轨迹。
  • 阶段 2:仿真策略学习 在物理模拟器中,通过强化学习(RL)训练策略,使其跟踪参考轨迹并适应环境变化。最终蒸馏出仅依赖本体感受、局部高度图和目标方向的统一策略。
  • 阶段 3:真实机器人部署 将训练好的策略直接部署到真实人形机器人(如 Unitree G1),实现鲁棒的上下文控制,无需额外传感器或任务特定调整。
3. 关键创新点
  • 联合重建人体与环境:突破传统方法仅重建人体或场景的局限,通过统一框架恢复具有物理尺度的人体运动和环境几何,为 RL 提供真实的交互场景。
  • 单策略泛化多技能:无需切换子策略,同一策略可处理爬楼梯、坐立、越障等多种任务,仅通过环境高度图和目标方向动态选择行为。
  • 端到端可部署性:策略仅依赖真实机器人可用的传感器(如惯性测量单元、LiDAR 高度图),无需动作捕捉或高精地图,直接适配真实环境。
2、算法实现细节
1. 真实到仿真的数据采集与重建 (1) 视频预处理:人体姿态与场景几何提取
  • 人体姿态估计:使用 Grounded SAM2 检测视频中的人体,通过 VIMO 模型预测 SMPL 参数(关节角度、身体形状),ViTPose 提取 2D 关键点,BSTRO 回归足部接触信号。
  • 场景重建:利用 MegaSaM 或 MonST3R 进行单目结构光运动(SfM)和密集深度估计,生成场景点云。由于单目重建存在尺度歧义,通过人体高度先验(SMPL 模型的身高参数)校准场景尺度,确保人体与环境的物理一致性。
(2) 联合优化:对齐人体轨迹与场景几何
  • 优化目标:通过最小化 3D 关节位置误差、2D 投影误差和时间平滑损失,联合优化人体全局位姿、旋转、局部关节角度和场景尺度。
  • 重力对齐与网格生成:使用 GeoCalib 估计重力方向,将重建坐标系对齐物理模拟器(+z 轴向上)。通过体素滤波和 NKSR 算法将点云转换为轻量化网格,保留地形细节的同时减少计算量。
(3) 运动重定向:从人类到机器人的姿态适配
  • 运动学约束:将人类关节轨迹映射到机器人骨骼时,引入关节限位、碰撞避免和足部接触匹配约束。通过 Levenberg-Marquardt 优化器求解机器人关节角度和根位姿,确保动作物理可行。
  • 尺度适配:通过预拟合机器人尺度的 SMPL 模型(调整身体比例,缩小人类与机器人的形态差异,提升运动迁移成功率。
2. 仿真策略学习:多阶段强化学习框架 阶段 1:动作捕捉预训练
  • 数据与目标:使用 LAFAN 动作捕捉数据集,预训练策略学习人类运动的动力学特征,降低对视频重建噪声的敏感性。
  • 观测与奖励:策略输入包括关节角度、根位姿、目标方向,奖励函数聚焦于跟踪关节位置、速度和足部接触,减少手工设计先验。
阶段 2:场景条件跟踪
  • 环境感知引入:将场景高度图(11×11 网格,0.1m 分辨率)作为输入,通过残差连接融入策略网络,使策略感知局部地形(如台阶、椅子)。
  • 批量训练与鲁棒性增强:在仿真中随机化机器人质量、摩擦系数、传感器噪声等参数,提升策略对真实环境的泛化能力。
阶段 3:策略蒸馏与微调
  • 蒸馏目标:通过 DAgger 算法将依赖关节目标的“教师策略”蒸馏为仅依赖根方向和高度图的“学生策略”,简化输入空间的同时保留环境适应性。
  • PPO 微调:使用近端策略优化(PPO)在简化观测空间下进一步训练,增强策略在未见过环境中的恢复能力(如足部打滑时单腿跳跃调整)。
3、仿真测试与真实部署
1. 重建效果评估:精准恢复人体与场景
  • 定量对比:在 SLOPER4D 数据集上,VIDEOMIMIC 的人体轨迹误差和场景几何误差均显著优于 WHAM、TRAM 等基线方法。
  • 定性效果:成功重建复杂场景(如多人交互、动态环境),并支持第一人称 RGB-D 渲染,为未来视觉-运动联合训练奠定基础(见图 4)。
2. 仿真训练效果:单策略掌握多场景技能
  • 多任务泛化:同一策略可执行爬楼梯(正向/反向)、坐立、越障等 10 余种动作,无需手动切换任务模式(见图 5)。
  • 鲁棒性验证:在随机扰动(如足部打滑、传感器噪声)下,策略通过动态调整步态恢复稳定,成功率较基线提升 40%(见图 6)。
3. 真实机器人部署:Unitree G1 的上下文控制
  • 硬件配置:在 23 自由度的 Unitree G1 机器人上部署策略,使用 Fast-lio2 实时生成 LiDAR 高度图, onboard 计算频率 50Hz。
  • 实测表现
  • 楼梯场景:稳健上下室内外楼梯,即使台阶尺寸未在训练中出现,仍能通过高度图动态调整步幅。
  • 坐姿控制:准确识别椅子位置,自主完成坐下-站立循环,接触力误差小于 15%。
  • 复杂地形:穿越陡坡(坡度≤25°)、碎石地时,通过局部高度图感知障碍,切换步态避免跌倒。
  • 创新性突破:首次实现从单目视频学习的上下文控制策略在真实人形机器人上的端到端部署,无需预编程行为树或手工调参。
 
论文名称:Visual Imitation Enables Contextual Humanoid Control 项目链接:https://www.videomimic.net/ 论文链接:https://arxiv.org/abs/2505.03729 作者:Arthur Allshire, Hongsuk Choi, Junyi Zhang, David McAllister, Anthony Zhang, Chung Min Kim, Trevor Darrell, Pieter Abbeel, Jitendra Malik, Angjoo Kanazawa. 论文源码:https://github.com/hongsukchoi/VideoMimic(即将开源)
posted @ 2025-06-14 19:48  吴建明wujianming  阅读(280)  评论(0)    收藏  举报