RL algorithm pseudocode

DQN

DDPG(DQN是离散动作空间的,DDPG是可以用在连续动作空间)

TRPO

PPO

batch norm

posted @ 2019-02-15 14:25  blog_hfg  阅读(246)  评论(0)    收藏  举报