摘要: 源地址 http://blog.csdn.net/supercally/article/details/54754787 2. 增强学习都有哪些策略 蒙特卡洛方法 简单而言,蒙特卡洛方法就是对这个策略所有可能的结果求平均。我们向前走了以后,再做一个action,根据这个式子,直到episode结束, 阅读全文
posted @ 2017-10-24 12:47 cathy_mu 阅读(222) 评论(0) 推荐(0)