03 2017 档案

摘要:强化学习总结 强化学习的故事 强化学习是学习一个最优策略(policy),可以让本体(agent)在特定环境(environment)中,根据当前的状态(state),做出行动(action),从而获得最大回报(G or return)。 有限马尔卡夫决策过程 马尔卡夫决策过程理论定义了一个数学模型 阅读全文
posted @ 2017-03-30 23:34 SNYang 阅读(21588) 评论(6) 推荐(15)
摘要:强化学习读书笔记 14 心理学 学习笔记: "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 参照 "Reinforcement Learning: 阅读全文
posted @ 2017-03-28 19:03 SNYang 阅读(1784) 评论(0) 推荐(1)
摘要:强化学习读书笔记 13 策略梯度方法(Policy Gradient Methods) 学习笔记: "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 阅读全文
posted @ 2017-03-26 21:54 SNYang 阅读(16109) 评论(0) 推荐(1)
摘要:强化学习读书笔记 00 术语和数学符号 学习笔记: "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 基本概念 Agent 本体。学习者、决策者。 E 阅读全文
posted @ 2017-03-25 14:46 SNYang 阅读(14305) 评论(4) 推荐(8)
摘要:强化学习读书笔记 12 资格痕迹(Eligibility Traces) 学习笔记: "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 参照 "Rei 阅读全文
posted @ 2017-03-25 14:42 SNYang 阅读(10229) 评论(2) 推荐(2)
只有注册用户登录后才能阅读该文。
posted @ 2017-03-23 00:10 SNYang 阅读(365) 评论(0) 推荐(2)
摘要:强化学习读书笔记 11 off policy的近似方法 学习笔记: "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 参照 "Reinforcemen 阅读全文
posted @ 2017-03-12 00:04 SNYang 阅读(1883) 评论(1) 推荐(0)
摘要:强化学习读书笔记 10 on policy控制的近似方法 学习笔记: "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 参照 "Reinforceme 阅读全文
posted @ 2017-03-11 22:27 SNYang 阅读(2012) 评论(0) 推荐(0)
摘要:强化学习读书笔记 09 on policy预测的近似方法 参照 "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" "强化学习读书笔记 00 术语和数学 阅读全文
posted @ 2017-03-11 16:54 SNYang 阅读(2713) 评论(0) 推荐(2)
摘要:强化学习读书笔记 08 规划式方法和学习式方法 学习笔记: "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 需要了解强化学习的数学符号,先看看这里: 阅读全文
posted @ 2017-03-09 15:25 SNYang 阅读(4161) 评论(0) 推荐(0)
摘要:强化学习读书笔记 06~07 时序差分学习(Temporal Difference Learning) 学习笔记: "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015 阅读全文
posted @ 2017-03-09 15:23 SNYang 阅读(12461) 评论(0) 推荐(2)
摘要:强化学习读书笔记 05 蒙特卡洛方法(Monte Carlo Methods) 学习笔记: "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 数学符号 阅读全文
posted @ 2017-03-05 22:03 SNYang 阅读(11561) 评论(2) 推荐(3)
摘要:强化学习读书笔记 03 有限马尔科夫决策过程 学习笔记: "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 代理 环境接口(The agent env 阅读全文
posted @ 2017-03-03 16:39 SNYang 阅读(6103) 评论(6) 推荐(3)
摘要:强化学习读书笔记 04 动态规划 学习笔记: "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 数学符号看不懂的,先看看这里: "强化学习读书笔记 0 阅读全文
posted @ 2017-03-03 00:28 SNYang 阅读(5637) 评论(0) 推荐(4)