09 2021 档案

摘要:我的mysql没有设置开机自动运行,所以需要启动一下 网上大多采用DOS的net start mysql,但是在我这没有作用。 直接在windows的搜索中找到 '服务'->MySQL80->启动服务 即可 阅读全文
posted @ 2021-09-05 16:14 neumy 阅读(178) 评论(0) 推荐(0)
摘要:21/9/4 读书笔记 强化学习 其他算法 Asynchronous Advantage Actor-Critic (A3C) 之前我们介绍了通过经验回放的方式降低每次网络更新间的相关性(即Double DQN的方式),但是这种方式仍然有一定的瓶颈,因为经验回放池中的数据相关性还是太强。这种相关性归 阅读全文
posted @ 2021-09-04 09:32 neumy 阅读(214) 评论(0) 推荐(0)
摘要:21/9/3 读书笔记 强化学习 Actor-Critic Actor-Critic思想的来源 Actor-Critic的基本思想来自于Policy Gradient,用于在连续的动作空间内选取动作。Actor-Critic中的Actor就是采用了Policy Gradient的算法,而Critic 阅读全文
posted @ 2021-09-04 08:26 neumy 阅读(196) 评论(0) 推荐(0)
摘要:21/9/2 读书笔记 强化学习 Policy Gradient Policy Gradient是一种policy-based的强化学习方法,其直接基于概率进行方法的选择。与value-based的Q-Learning不同,Policy Gradient能够在一个连续的空间内挑选动作。 Policy 阅读全文
posted @ 2021-09-02 06:40 neumy 阅读(94) 评论(0) 推荐(0)
摘要:21/9/1 读书笔记 强化学习 DQN的改进 Double DQN Double DQN是为了解决DQN的overestimate问题。 DQN的overestimate问题指对state-value对的Q值进行Q-现实的计算时,由于直接采用maxQ(即选择现实神经网络中Q值最大的动作),得到的Q 阅读全文
posted @ 2021-09-01 08:58 neumy 阅读(173) 评论(0) 推荐(0)