我的随笔(第249页) - Angry_Panda - 博客园

我的随笔

动态规划中策略迭代和值迭代的一个小例子 Angry_Panda 2019-01-24 13:47 阅读:6185 评论:0 推荐:4

爬格子问题（经典强化学习问题） Sarsa 与 Q-Learning 的区别 Angry_Panda 2019-01-24 09:25 阅读:4191 评论:0 推荐:0

南京大学俞扬博士：强化学习前沿（下） (转载) Angry_Panda 2019-01-23 14:27 阅读:1773 评论:0 推荐:0

南京大学俞扬博士万字演讲全文：强化学习前沿（上）（转载） Angry_Panda 2019-01-22 21:22 阅读:1289 评论:0 推荐:0

Learning from delayed reward (Q-Learning的提出) （Watkins博士毕业论文）（建立了现在的reinforcement Learning模型） Angry_Panda 2019-01-11 20:47 阅读:5476 评论:0 推荐:0

ubuntu18.04 server配置静态ip (转载) Angry_Panda 2019-01-11 14:27 阅读:1369 评论:0 推荐:0

强化学习 reinforcement learning： An Introduction 第一章， tic-and-toc 代码示例（结构重建版，注释版） Angry_Panda 2019-01-10 10:02 阅读:1309 评论:0 推荐:0

杨强：深度学习、强化学习、迁移学习的结合及应用进展（转载） Angry_Panda 2019-01-08 11:28 阅读:3054 评论:0 推荐:0

做强化学习，怎么往下走，个人思考 Angry_Panda 2019-01-08 10:52 阅读:221 评论:1 推荐:0

[python]自问自答：python -m参数？（ python3.7 版本） Angry_Panda 2019-01-07 21:42 阅读:2393 评论:1 推荐:0

公告

导航