摘要:
21/9/4 读书笔记 强化学习 其他算法 Asynchronous Advantage Actor-Critic (A3C) 之前我们介绍了通过经验回放的方式降低每次网络更新间的相关性(即Double DQN的方式),但是这种方式仍然有一定的瓶颈,因为经验回放池中的数据相关性还是太强。这种相关性归 阅读全文
posted @ 2021-09-04 09:32
neumy
阅读(217)
评论(0)
推荐(0)
摘要:
21/9/3 读书笔记 强化学习 Actor-Critic Actor-Critic思想的来源 Actor-Critic的基本思想来自于Policy Gradient,用于在连续的动作空间内选取动作。Actor-Critic中的Actor就是采用了Policy Gradient的算法,而Critic 阅读全文
posted @ 2021-09-04 08:26
neumy
阅读(201)
评论(0)
推荐(0)

浙公网安备 33010602011771号