swagger2016

2017年9月17日

摘要：对于增强学习的控制问题，有两个著名的基础算法：Sarsa、Q-Learning (1) Sarsa 算法流程：对于所有状态 s 以及动作 a 进行任意初始化，将所有终止状态的 Value-Action 值设为0 迭代每一训练集episode：初始化状态 S 根据策略Q，按照当前的状态 S，选择动阅读全文

posted @ 2017-09-17 09:34 swagger2016 阅读(157) 评论(0) 推荐(0)

2017年9月13日

增强学习的基本概念（1）

摘要： RL Course notation by David Silver 阅读全文

posted @ 2017-09-13 15:33 swagger2016 阅读(137) 评论(0) 推荐(0)

公告