摘要: 对于增强学习的控制问题,有两个著名的基础算法:Sarsa、Q-Learning (1) Sarsa 算法流程: 对于所有状态 s 以及动作 a 进行任意初始化,将所有终止状态的 Value-Action 值设为0 迭代每一训练集episode: 初始化状态 S 根据策略Q,按照当前的状态 S,选择动 阅读全文
posted @ 2017-09-17 09:34 swagger2016 阅读(154) 评论(0) 推荐(0)
摘要: RL Course notation by David Silver 阅读全文
posted @ 2017-09-13 15:33 swagger2016 阅读(134) 评论(0) 推荐(0)