摘要: 本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10134018.html 问题情境 -o T# T 就是宝藏的位置, o 是探索者的位置 这一次我们会用 q-learning 的方法实现一个小例子,例子的环境是一个一维世界,在世界的右边有宝藏 阅读全文
posted @ 2018-12-17 21:23 罗兵 阅读(15861) 评论(3) 推荐(0) 编辑