动态规划中 策略迭代 和 值迭代 的一个小例子
Angry_Panda 2019-01-24 13:47
阅读:6185
评论:0
推荐:4
我的随笔
爬格子问题(经典强化学习问题) Sarsa 与 Q-Learning 的区别
Angry_Panda 2019-01-24 09:25
阅读:4191
评论:0
推荐:0
南京大学俞扬博士:强化学习前沿(下) (转载)
Angry_Panda 2019-01-23 14:27
阅读:1773
评论:0
推荐:0
南京大学俞扬博士万字演讲全文:强化学习前沿(上) (转载)
Angry_Panda 2019-01-22 21:22
阅读:1289
评论:0
推荐:0
Learning from delayed reward (Q-Learning的提出) (Watkins博士毕业论文)(建立了现在的reinforcement Learning模型)
Angry_Panda 2019-01-11 20:47
阅读:5476
评论:0
推荐:0
ubuntu18.04 server配置静态ip (转载)
Angry_Panda 2019-01-11 14:27
阅读:1369
评论:0
推荐:0
强化学习 reinforcement learning: An Introduction 第一章, tic-and-toc 代码示例 (结构重建版,注释版)
Angry_Panda 2019-01-10 10:02
阅读:1309
评论:0
推荐:0
杨强:深度学习、强化学习、迁移学习的结合及应用进展 (转载)
Angry_Panda 2019-01-08 11:28
阅读:3054
评论:0
推荐:0
做强化学习, 怎么往下走,个人思考
Angry_Panda 2019-01-08 10:52
阅读:221
评论:1
推荐:0
[python]自问自答:python -m参数? ( python3.7 版本 )
Angry_Panda 2019-01-07 21:42
阅读:2393
评论:1
推荐:0
浙公网安备 33010602011771号