宇树G1开源论文 | SoFTA框架优化强化学习PPO算法!宇树G1机器人学习温和的人形运动和末端效应器稳定控制
机器人的平稳行走 需要具备鲁棒性,能够在不同地形和外部干扰下保持平衡。末端执行器稳定控制要求机器人快速、精确地调整末端执行器的位置和姿态,需要更高的控制频率和实时响应。传统方法往往难以兼顾两者:要么牺牲末端控制的精度以保证行走稳定性,要么专注于末端控制而导致行走不稳。提出一种名为 SoFTA的强化学习框架,成功实现人形机器人在行走时保持末端执行器的稳定控制。成功部署到Unitree G1 和 Booster T1 人形机器人上。
1、算法框架
1.SoFTA 框架的核心思想
SoFTA(慢-快双智能体)框架的核心在于 将机器人的控制任务分解为两个独立的智能体,分别负责上半身和下半身的控制。这种设计通过 频率解耦 和 任务目标分离,让每个智能体专注于各自的领域,避免相互干扰。
-
上半身智能体
-
任务:控制手臂和末端执行器,确保其位置和姿态的精确稳定。
-
频率:以 100Hz 运行,能够快速响应末端执行器的微小变化。
-
目标:实现高精度的末端控制,例如保持相机稳定或防止液体溢出。
-
下半身智能体
-
任务:控制腿部和腰部,确保行走的鲁棒性和平衡。
-
频率:以 50Hz 运行,专注于步态的稳定性和长期鲁棒性。
-
目标:适应不同地形和外力干扰,保持机器人不摔倒。这种“慢-快”分离的设计,不仅在时间尺度上解耦了行走和末端控制,还通过任务分解让系统更高效、更稳定。
2.框架设计细节
-
观察空间:两个智能体共享相同的观察空间,控制不同的动作子集
-
本体感受信息:关节位置、速度、根部角速度,感知机器人当前状态
-
目标状态:包括目标行走速度、角速度、基座朝向、步态命令和末端执行器命令
-
动作空间
-
上半身:控制14个手臂关节
-
下半身:控制腿部和腰部关节
-
奖励设计
-
下半身奖励:包括线速度跟踪、角速度跟踪、基座高度跟踪和步态接触奖励,优化行走的稳定性
-
上半身奖励:包括末端执行器位置跟踪、加速度惩罚、角加速度惩罚和倾斜惩罚。终止奖励被同时纳入两个奖励流,鼓励两智能体协作完成任务
-
SoFTA 的关键创新在于频率解耦。上半身以100Hz运行,快速调整末端执行器;下半身以50Hz运行,避免高频控制带来仿真到现实的差距
2、算法实现细节
1.训练环境与设置
SoFTA 在 Isaac Gym 模拟环境中进行训练,模拟频率为 200Hz。为了增强政策的鲁棒性,研究团队采用了多种领域随机化技术,包括:
-
P Gain 和 D Gain 随机化:模拟控制器的不确定性。
-
摩擦系数随机化:模拟不同地面条件。
-
基座质量随机化:模拟负载变化。
-
控制延迟随机化:模拟现实系统延迟。
-
外部推力随机化:模拟外力干扰。
训练过程分两阶段:先在无推力干扰的环境中训练稳定政策,再引入推力干扰以提升鲁棒性。
2.观察与动作设计
-
观察空间
-
关节位置和速度
-
根部角速度和重力投影向量:感知旋转和倾斜
-
历史动作:提供动作趋势信息
-
目标命令:包括行走速度、步态信息和末端执行器位置。批评家额外使用特权观察(如基座线速度和末端执行器相对位置),仅在训练中辅助价值估计,部署时不可用
-
动作空间
-
上半身动作:控制手臂关节,100Hz
-
下半身动作:控制腿部和腰部关节,50Hz
-
奖励函数:
-
下半身奖励:线速度跟踪:跟踪目标速度。角速度跟踪:保持目标旋转。基座高度跟踪:维持期望高度。步态接触奖励:遵循期望步态序列
-
上半身奖励:末端执行器位置跟踪:保持目标位置。加速度惩罚:减少线加速度和角加速度。倾斜惩罚:减少重力方向倾斜。终止奖励用于惩罚任务失败,纳入两组奖励流
3.训练策略
SoFTA 使用 PPO(Proximal Policy Optimization) 算法训练,关键参数包括:
-
学习率:演员和批评家均为 1e-3。
-
批次大小:每个环境 48 步。
-
网络结构:采用 [512, 256, 128] 的 MLP 网络,激活函数为 ELU。
-
动作标准差:下半身初始 0.8,上半身初始 0.6,随训练衰减。
3、仿真与实测结果
1.仿真测试
在 Isaac Gym 中,SoFTA 在三种场景下评估:
-
Tapping:原地踏步,测试可预测接触下的稳定性。
-
RandCommand:每 10 秒随机切换命令,评估多样化运动的鲁棒性。
-
Push:每秒施加 0.5m/s 的随机扰动,模拟外力干扰。
评估指标包括:
-
末端执行器加速度(Acc):线加速度范数。
-
末端执行器角加速度(AngAcc):角加速度范数。
-
Z 方向加速度(Acc-Z):垂直方向加速度。
-
重力投影(Grav-XY):末端执行器坐标系中重力在 XY 平面的投影。
结果显示,SoFTA 在所有场景中均优于基线方法(如 Lower-body RL + IK 和 Whole-body RL),尤其在 Push 场景中,末端加速度显著降低,展现了其在复杂环境下的优越性。
2.实测结果
在 Unitree G1 机器人上,SoFTA 在三种场景下测试:
-
Tapping:原地踏步。
-
TrajTrack:沿直线周期性移动。
-
Turning:原地旋转。
实测结果表明,SoFTA 在所有场景中保持较低的末端加速度,相较于 Robot Default Controller 和 Whole-body RL,特别是在 TrajTrack 和 Turning 等大运动场景中表现更佳。
3.实际应用案例
-
携带水瓶:SoFTA 在行走中显著减少末端执行器震动,使机器人能平稳携带几乎满杯的水而不溢出。相比之下,未优化的方法会导致水面剧烈晃动。
-
相机稳定器:SoFTA 使机器人在行走和旋转时保持相机稳定,录制平滑、无抖动的视频,展示了其在现实中的应用潜力。
4. 频率设计分析
-
下半身频率:50Hz 是理想选择,过高(如 100Hz)会导致现实中振荡和不稳定。
-
上半身频率:100Hz 提供更快响应和更好的末端稳定性,尤其在应对突发干扰时hello 各位同学,我们决定创建交流群啦!在这里,你可以: 🧠深入技术交流: 包括但不限于强化学习、模仿学习、VLA、VLN、SLAM、运动控制、路径规划、感知融合、无人机等行业的同学,希望在这里可以与同行切磋技术难题,探讨前沿技术趋势,激发创新灵感。 📚高效学术分享: 分享/获取最新论文、研究动态、会议信息,促进学术思想碰撞。 📰掌握行业脉动: 第一时间获取并讨论行业重磅新闻、政策解读、市场变化,不做信息落后者 💼链接职业机会: 寻找心仪职位群内还会分享一些行业内的招聘信息! 💬畅所欲言: 工作之余,与志同道合的朋友轻松聊天、分享生活感悟、拓展人脉。
论文名称:Hold My Beer: Learning Gentle Humanoid Locomotion and End-Effector Stabilization Control 项目链接:https://lecar-lab.github.io/SoFTA 论文链接:https://arxiv.org/html/2505.24198v1 作者:Yitang Li, Yuanhang Zhang, Wenli Xiao, Chaoyi Pan.. 论文源码:https://github.com/LeCAR-Lab/SoFTA
人工智能芯片与自动驾驶

浙公网安备 33010602011771号