摘要: 简介 DQN——Deep Q-learning。在上一篇博客DQN(Deep Q-learning)入门教程(四)之Q-learning Play Flappy Bird 中,我们使用Q-Table来储存state与action之间的q值,那么这样有什么不足呢?我们可以将问题的稍微复杂化一点了,如果 阅读全文
posted @ 2020-05-30 17:04 渣渣辉啊 阅读(9319) 评论(0) 推荐(0) 编辑
摘要: 在上一篇博客中,我们详细的对Q-learning的算法流程进行了介绍。同时我们使用了$\epsilon-贪婪法$防止陷入局部最优。 那么我们可以想一下,最后我们得到的结果是什么样的呢?因为我们考虑到了所有的($\epsilon-贪婪法$导致的)情况,因此最终我们将会得到一张如下的Q-Table表。 阅读全文
posted @ 2020-05-30 01:51 渣渣辉啊 阅读(4602) 评论(0) 推荐(0) 编辑