随笔档案「2021年9月4日」：21/9/4 A3C PPO ... - neumy

2021年9月4日

摘要： 21/9/4 读书笔记强化学习其他算法 Asynchronous Advantage Actor-Critic （A3C）之前我们介绍了通过经验回放的方式降低每次网络更新间的相关性（即Double DQN的方式），但是这种方式仍然有一定的瓶颈，因为经验回放池中的数据相关性还是太强。这种相关性归阅读全文

posted @ 2021-09-04 09:32 neumy 阅读(217) 评论(0) 推荐(0)

21/9/3 读书笔记 AC DDPG

摘要： 21/9/3 读书笔记强化学习 Actor-Critic Actor-Critic思想的来源 Actor-Critic的基本思想来自于Policy Gradient，用于在连续的动作空间内选取动作。Actor-Critic中的Actor就是采用了Policy Gradient的算法，而Critic 阅读全文

posted @ 2021-09-04 08:26 neumy 阅读(201) 评论(0) 推荐(0)

neumy

这里居住着一只小白

公告