学习笔记 | Morvan - Reinforcement Learning, Part 1: Overview

Overview

分类

通过价值选行为	直接选行为	想象环境，并从中学习
基于价值	不基于价值
Q learning Sarsa Deep Q Network	Policy Gradients	Model based RL
不理解环境（Model-free RL）		理解环境（Model-based RL）

posted @ 2017-01-20 02:23 CasperWin 阅读(207) 评论(0) 收藏举报

刷新页面返回顶部