强化学习的细分类
强化学习一般分为无模型的强化学习(Model-Free RL)和基于模型的强化学习(Model-Based RL)
·无模型的强化学习又分为Policy Optimization和Q-learning
使用Policy Optimization的算法:Policy Gradient、A2C/A3C、PPO、TRPO
使用Q-learning的算法:DQN、C51、QR-DQN、HER
同时使用Policy Optimization和Q-learning的算法:DDPG、TD3、SAC
·基于策略的强化学习又分为Learn the Model和Given the Model
使用Learn the Model的算法:World Models、I2A、MBMF、MBVE
使用Given the Model的算法:AlphaZero
如何选择:
连续动作 (动作是一个连续值, 比如旋转角度)
- Policy gradient
- DDPG
- A3C
- PPO
离散动作 (动作是一个离散值, 比如向前,向后走)
- Q-learning
- DQN
- A3C
- PPO
References:
https://spinningup.openai.com/en/latest/spinningup/rl_intro2.html#id20
https://morvanzhou.github.io/tutorials/machine-learning/ML-practice/RL-build-arm-from-scratch4/

浙公网安备 33010602011771号