摘要: 将例二改写成面向对象模式,并加了环境! 不过更新环境的过程中,用到了清屏命令,play()的时候,会有点问题。learn()的时候可以勉强看到:P 0.效果图 1.完整代码 相对于例一,修改的地方: Agent 五处:states, actions, rewards, get_valid_actio 阅读全文
posted @ 2018-12-18 21:35 罗兵 阅读(1333) 评论(0) 推荐(0) 编辑
摘要: 本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10139738.html 例一的代码是函数式编写的,这里用面向对象的方式重新撸了一遍。好处是,更便于理解环境(Env)、个体(Agent)之间的关系。 有缘看到的朋友,自己慢慢体会吧。 0.效果 阅读全文
posted @ 2018-12-18 20:17 罗兵 阅读(2094) 评论(0) 推荐(0) 编辑
摘要: 本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10134855.html 问题情境 一个2*2的迷宫,一个入口,一个出口,还有一个陷阱。如图 (图片来源:https://jizhi.im/blog/post/intro_q_learning) 阅读全文
posted @ 2018-12-18 00:43 罗兵 阅读(6541) 评论(0) 推荐(0) 编辑