基于策略梯度的强化学习论文调研

RL-Adventure: Policy Gradients

开源代码:https://github.com/higgsfield/RL-Adventure-2

自身实现:https://github.com/lucifer2859/Policy-Gradients

 

1、Advantage Actor Critic(A2C)& A3C

  • on-policy(A2C)& off-policy(A3C)
  • 随机性策略

 

2、Soft Actor-Critic(SAC)(旧版),(新版)

  • off-policy
  • 随机性策略,确定性评估

  原始论文中伪代码有状态价值函数V:

  后续为什么没有了 [公式] 函数?在初版的SAC中,作者表示同时维持两个值函数,可以使训练更加稳定,不过在第二版中,作者引入了自动调整温度系数 [公式] 的方法,使得SAC更加稳定,于是就只保留了 [公式] 函数。

 

3、Deep Deterministic Policy Gradient(DDPG)

  • off-policy
  • 确定性策略

 

4、Trust Region Policy Optimization(TRPO)

  • on-policy
  • 随机性策略

 

5、Proximal Policy Optimization algorithm(PPO)

  • on-policy
  • 随机性策略

 

6、Twin Delayed Deep Deterministic policy gradient algorithm(TD3)

  • off-policy
  • 确定性策略

posted on 2020-10-18 20:09  穷酸秀才大草包  阅读(186)  评论(0编辑  收藏  举报

导航