摘要:
1. pip install gym 可以看到,增强学习和监督学习的区别主要有以下两点: 1. 增强学习是试错学习(Trail-and-error),由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最佳策略。 2. 延迟回报,增强学习的指导信息很少,而且往往是在事后(最后一 阅读全文
posted @ 2018-08-12 20:06
张博的博客
阅读(254)
评论(0)
推荐(0)
contact me:wechat 15122306087