RL algorithm pseudocode

DQN

DDPG(DQN是离散动作空间的，DDPG是可以用在连续动作空间)

TRPO

PPO

batch norm

posted @ 2019-02-15 14:25 blog_hfg 阅读(246) 评论(0) 收藏举报

刷新页面返回顶部