随笔档案「2017年3月」 - SNYang

强化学习总结

摘要：强化学习总结强化学习的故事强化学习是学习一个最优策略(policy)，可以让本体(agent)在特定环境(environment)中，根据当前的状态(state)，做出行动(action)，从而获得最大回报(G or return)。有限马尔卡夫决策过程马尔卡夫决策过程理论定义了一个数学模型阅读全文

posted @ 2017-03-30 23:34 SNYang 阅读(21588) 评论(6) 推荐(15)

强化学习读书笔记 - 14 - 心理学

摘要：强化学习读书笔记 14 心理学学习笔记： "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 参照 "Reinforcement Learning: 阅读全文

posted @ 2017-03-28 19:03 SNYang 阅读(1784) 评论(0) 推荐(1)

强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods)

摘要：强化学习读书笔记 13 策略梯度方法(Policy Gradient Methods) 学习笔记： "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 阅读全文

posted @ 2017-03-26 21:54 SNYang 阅读(16109) 评论(0) 推荐(1)

强化学习读书笔记 - 00 - 术语和数学符号

摘要：强化学习读书笔记 00 术语和数学符号学习笔记： "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 基本概念 Agent 本体。学习者、决策者。 E 阅读全文

posted @ 2017-03-25 14:46 SNYang 阅读(14305) 评论(4) 推荐(8)

强化学习读书笔记 - 12 - 资格痕迹(Eligibility Traces)

摘要：强化学习读书笔记 12 资格痕迹(Eligibility Traces) 学习笔记： "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 参照 "Rei 阅读全文

posted @ 2017-03-25 14:42 SNYang 阅读(10229) 评论(2) 推荐(2)

知天命

只有注册用户登录后才能阅读该文。

posted @ 2017-03-23 00:10 SNYang 阅读(365) 评论(0) 推荐(2)

强化学习读书笔记 - 11 - off-policy的近似方法

摘要：强化学习读书笔记 11 off policy的近似方法学习笔记： "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 参照 "Reinforcemen 阅读全文

posted @ 2017-03-12 00:04 SNYang 阅读(1883) 评论(1) 推荐(0)

强化学习读书笔记 - 10 - on-policy控制的近似方法

摘要：强化学习读书笔记 10 on policy控制的近似方法学习笔记： "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 参照 "Reinforceme 阅读全文

posted @ 2017-03-11 22:27 SNYang 阅读(2012) 评论(0) 推荐(0)

强化学习读书笔记 - 09 - on-policy预测的近似方法

摘要：强化学习读书笔记 09 on policy预测的近似方法参照 "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" "强化学习读书笔记 00 术语和数学阅读全文

posted @ 2017-03-11 16:54 SNYang 阅读(2713) 评论(0) 推荐(2)

强化学习读书笔记 - 08 - 规划式方法和学习式方法

摘要：强化学习读书笔记 08 规划式方法和学习式方法学习笔记： "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 需要了解强化学习的数学符号，先看看这里：阅读全文

posted @ 2017-03-09 15:25 SNYang 阅读(4161) 评论(0) 推荐(0)

强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)

摘要：强化学习读书笔记 06~07 时序差分学习(Temporal Difference Learning) 学习笔记： "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015 阅读全文

posted @ 2017-03-09 15:23 SNYang 阅读(12461) 评论(0) 推荐(2)

强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods)

摘要：强化学习读书笔记 05 蒙特卡洛方法(Monte Carlo Methods) 学习笔记： "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 数学符号阅读全文

posted @ 2017-03-05 22:03 SNYang 阅读(11561) 评论(2) 推荐(3)

强化学习读书笔记 - 03 - 有限马尔科夫决策过程

摘要：强化学习读书笔记 03 有限马尔科夫决策过程学习笔记： "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 代理环境接口(The agent env 阅读全文

posted @ 2017-03-03 16:39 SNYang 阅读(6103) 评论(6) 推荐(3)

强化学习读书笔记 - 04 - 动态规划

摘要：强化学习读书笔记 04 动态规划学习笔记： "Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016" 数学符号看不懂的，先看看这里： "强化学习读书笔记 0 阅读全文

posted @ 2017-03-03 00:28 SNYang 阅读(5637) 评论(0) 推荐(4)

想想你应该干什么

03 2017 档案