摘要:
确定性策略梯度算法属于 Actor-Critic 类,综合了 value based 方法和 policy based 方法的优点,在很多任务上的表现能吊打 PG 类算法,比如 gym 的经典难题 BipedalWalker 项目。这里介绍的有两种: DDPG 和它的升级版:TD3,后续还会加入 D4PG 等更多变体的介绍。 阅读全文
确定性策略梯度算法属于 Actor-Critic 类,综合了 value based 方法和 policy based 方法的优点,在很多任务上的表现能吊打 PG 类算法,比如 gym 的经典难题 BipedalWalker 项目。这里介绍的有两种: DDPG 和它的升级版:TD3,后续还会加入 D4PG 等更多变体的介绍。 阅读全文
posted @ 2020-05-21 16:18
Quantum-Cheese
阅读(508)
评论(0)
推荐(0)

浙公网安备 33010602011771号