【读书笔记】2_增强学习中的Q-Learning
摘要:
本文为Thomas Simonini增强学习系列文章笔记或读后感,原文可以直接跳转到medium系列文章。主要概念为:Q-Learning,探讨其概念以及用Numpy实现我们可以将二维游戏想象成平面格子,每个格子代表一个状态,并且对应了不同的动作,例如下图:Q函数接收状态和动作两个参数并输出Q值,即在一个状态下各种动作各自未来的期望奖励。公式如下:这里的未来期望奖励,就是当前状态下一直到结束状态(... 阅读全文
posted @ 2018-09-14 23:54
BPassionate
阅读(408)
评论(0)
推荐(0)
浙公网安备 33010602011771号