09 2021 档案
摘要:我的mysql没有设置开机自动运行,所以需要启动一下 网上大多采用DOS的net start mysql,但是在我这没有作用。 直接在windows的搜索中找到 '服务'->MySQL80->启动服务 即可
阅读全文
摘要:21/9/4 读书笔记 强化学习 其他算法 Asynchronous Advantage Actor-Critic (A3C) 之前我们介绍了通过经验回放的方式降低每次网络更新间的相关性(即Double DQN的方式),但是这种方式仍然有一定的瓶颈,因为经验回放池中的数据相关性还是太强。这种相关性归
阅读全文
摘要:21/9/3 读书笔记 强化学习 Actor-Critic Actor-Critic思想的来源 Actor-Critic的基本思想来自于Policy Gradient,用于在连续的动作空间内选取动作。Actor-Critic中的Actor就是采用了Policy Gradient的算法,而Critic
阅读全文
摘要:21/9/2 读书笔记 强化学习 Policy Gradient Policy Gradient是一种policy-based的强化学习方法,其直接基于概率进行方法的选择。与value-based的Q-Learning不同,Policy Gradient能够在一个连续的空间内挑选动作。 Policy
阅读全文
摘要:21/9/1 读书笔记 强化学习 DQN的改进 Double DQN Double DQN是为了解决DQN的overestimate问题。 DQN的overestimate问题指对state-value对的Q值进行Q-现实的计算时,由于直接采用maxQ(即选择现实神经网络中Q值最大的动作),得到的Q
阅读全文

浙公网安备 33010602011771号