Smooth Exploration for Robotic Reinforcement Learning

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

(Arxiv 2021)

 

Abstract

  强化学习(RL)使机器人能够从与现实世界的交互中学习技能。在实践中,Deep RL中使用的基于步骤的非结构化探索(通常在模拟中非常成功)会导致真实机器人的运动模式不稳定。由此产生的不稳定行为的后果是探索不佳,甚至对机器人造成损害。我们通过使状态相关探索(SDE)[1]适应当前的深度RL算法来解决这些问题。为了实现这种适应,我们提出了对原始SDE的两个扩展,使用更通用的特征并定期重新采样噪声,这导致了一种新的探索方法广义状态相关探索(gSDE)。我们在PyBullet连续控制任务模拟以及直接在三个不同的真实机器人上评估gSDE:肌腱驱动的弹性机器人、四足机器人和遥控车。gSDE的噪声采样间隔允许在性能和平滑度之间进行折衷,这允许直接在真实机器人上进行训练而不会损失性能。该代码可在https://github.com/DLR-RM/stable-baselines3获得。

 

1 Introduction

  最早使用人工智能方法的机器人之一被称为"Shakey",因为它在操作过程中会晃动很多[2]。摇晃现在在机器人技术中再次变得相当普遍,但原因不同。当通过深度强化学习(DeepRL)学习机器人技能时,事实上的探索标准是在每个时间步骤 t 独立地从高斯分布中采样一个噪声向量εt,然后将其添加到策略输出中。这种方法导致了图1左侧所示的噪声类型,它在仿真中非常有效[3, 4, 5, 6, 7]。

  非结构化探索也已应用于机器人技术[8, 9]。但是对于真实机器人的实验,它有很多缺点,这些缺点已被反复指出[1, 10, 11, 12, 13]:1)在每一步独立采样会导致不稳定的行为[14],以及嘈杂、抖动的轨迹。2) 不稳定的运动模式会损坏真实机器人上的电机,并导致磨损增加。3) 在现实世界中,系统充当低通滤波器。因此,连续的扰动可能会相互抵消,导致探索不佳。对于高控制频率尤其如此[15]。4)它会导致很大的方差,随着时间步数的增加而增加[10, 11, 12]

  在实践中,我们已经观察到三个真实机器人的所有这些缺点,包括图4a中描绘的肌腱驱动机器人David,这是本工作中使用的主要实验平台。出于所有实际目的,具有非结构化噪声的深度强化学习不能应用于David。

  在机器人技术中,已经提出了多种解决方案来抵消非结构化噪声的低效率。这些包括相关噪声[8, 15]、低通滤波器[16, 17]、动作重复[18]或更低级别的控制器[16, 9]。一个更有原则的解决方案是在参数空间中进行探索,而不是在动作空间中[19, 20]。这种方法通常需要对算法进行根本性的更改,并且在参数数量较多时更难调整。

  状态相关探索(SDE)[1, 11]被提议作为参数空间探索和动作空间探索之间的折衷方案。SDE用依赖于状态的探索函数替换采样噪声,该函数在回合期间返回给定状态的相同动作。这导致更顺畅的探索和每个回合的更少差异。

  据我们所知,目前还没有Deep RL算法与SDE成功结合。我们推测这是因为它所解决的问题——摇晃、生涩的运动——在模拟中并不那么明显,而这是社区当前关注的焦点。

  在本文中,我们旨在恢复对SDE的兴趣,将其作为一种有效的方法来解决在真实机器人上使用独立采样的高斯噪声所产生的探索问题。我们的具体贡献,也决定了论文的结构,是:

  1. 突出非结构化高斯探索的问题(第1节)。
  2. 使SDE适应最近的深度强化学习算法,并解决原始公式的一些问题(第2.2和3节)。
  3. 评估关于平滑度和性能之间折衷的不同方法,并显示噪声采样间隔的影响(第4.1和4.2节)。
  4. 成功地将RL直接应用于三个真实机器人:肌腱驱动机器人、四足机器人和遥控车,无需模拟器或滤波器(第4.3节)。

 

2 Background

 

2.1 Exploration in Action or Policy Parameter Space

 

2.2 State-Dependent Exploration

 

3 Generalized State-Dependent Exploration

 

Deep RL algorithms

 

4 Experiments

 

4.1 Compromise Between Smoothness and Performance

Experiment setup

 

Results

 

4.2 Comparison to the Original SDE

 

Sampling Interval

 

Policy features as input

 

4.3 Learning to Control a Tendon-Driven Elastic Robot

Experiment setup

 

Results

 

Additional Real Robot Experiments

 

5 Related Work

 

6 Conclusion

 

A Supplementary Material

A.1 State Dependent Exploration

 

A.2 Algorithms

  在本节中,我们将简要介绍本文中使用的算法。它们对应于无模型RL中用于连续控制的最先进的方法,无论是在样本效率还是挂钟时间方面。

A2C

PPO

TD3

SAC

Which algorithm for robotics? A2C和PPO都是on-policy算法,可以很容易地并行化,因此训练时间相对较短。另一方面,SAC和TD3是off-policy并且在单个worker上运行,但比前两种方法的样本效率要高得多,只需一小部分样本即可实现同等性能。

  因为我们专注于机器人应用,通常不可能拥有多个机器人,这使得TD3和SAC成为首选方法。尽管TD3和SAC非常相似,但SAC将探索直接嵌入到其目标函数中,使其更容易调优。在我们的模拟实验中,我们还发现SAC适用于各种超参数。因此,我们采用该算法在真实机器人上进行实验和消融研究。

 

A.3 Real Robot Experiments

 

A.4 Implementation Details

 

A.5 Learning Curves and Additional Results

 

A.6 Ablation Study: Additional Plots

 

Parallel Sampling

 

A.7 Hyperparameter Optimization

 

A.8 Hyperparameters

 

posted on 2022-05-09 12:00  穷酸秀才大草包  阅读(297)  评论(0)    收藏  举报

导航