强化学习的细分类

强化学习一般分为无模型的强化学习(Model-Free RL)和基于模型的强化学习(Model-Based RL)

  ·无模型的强化学习又分为Policy Optimization和Q-learning

    使用Policy Optimization的算法:Policy Gradient、A2C/A3C、PPO、TRPO

    使用Q-learning的算法:DQN、C51、QR-DQN、HER

    同时使用Policy Optimization和Q-learning的算法:DDPG、TD3、SAC

  ·基于策略的强化学习又分为Learn the Model和Given the Model

    使用Learn the Model的算法:World Models、I2A、MBMF、MBVE

    使用Given the Model的算法:AlphaZero

 

如何选择:

连续动作 (动作是一个连续值, 比如旋转角度)

  • Policy gradient
  • DDPG
  • A3C
  • PPO

离散动作 (动作是一个离散值, 比如向前,向后走)

  • Q-learning
  • DQN
  • A3C
  • PPO

 

References:

https://spinningup.openai.com/en/latest/spinningup/rl_intro2.html#id20

https://morvanzhou.github.io/tutorials/machine-learning/ML-practice/RL-build-arm-from-scratch4/

posted @ 2020-01-28 14:54  yingfengwu  阅读(2323)  评论(0)    收藏  举报