上一页 1 ··· 206 207 208 209 210 211 212 213 214 ··· 263 下一页

2021年3月17日

摘要: 前段时间在网上买了本强化学习入门的书籍,即《Deep-Reinforcement-Learning-Hands-On》,虽然是影印版的,但是感觉还是可以看看的,说的也蛮易懂的,感觉比现在市面上的中文的其它同类书籍要好很多。在下载代码的时候发现已经出了第二版,于是在网上找到了第二版的所在,感觉还是不错 阅读全文
posted @ 2021-03-17 21:55 Angry_Panda 阅读(995) 评论(1) 推荐(0)

2021年3月14日

摘要: 原题地址: https://leetcode-cn.com/problems/minimum-number-of-operations-to-move-all-balls-to-each-box/ 事件起源于实验室的慕师弟马上要博士毕业,意向是要去互联网公司,于是建议其去网上练练编程题,也正因此见到 阅读全文
posted @ 2021-03-14 23:49 Angry_Panda 阅读(125) 评论(1) 推荐(0)

2021年3月12日

摘要: 去年和今年一直是有疫情的,也是如此像我这种在学校呆着的不是在家窝着就是在学校窝着,尤其是到了假期的时候,如果晚回家几天那食堂的伙食就会变得十分的恐怖。 面对这样的伙食也是十分的无奈,虽然也是十分理解当前情况下还能提供一口热饭吃已然不易,但是这种伙食吃上几顿总是无法再继续了,于是想起了同屋小伙(老段) 阅读全文
posted @ 2021-03-12 08:13 Angry_Panda 阅读(100) 评论(1) 推荐(0)

2021年1月27日

摘要: 本文使用代码地址: https://gitee.com/devilmaycry812839668/reinforce_with_-experience-buffer 前面有几篇博客分析了以reinforce算法为原型的多环境并行强化学习算法,这里是在之前的算法基础上加入了经验池回放机制。经验池回放机 阅读全文
posted @ 2021-01-27 07:52 Angry_Panda 阅读(779) 评论(0) 推荐(0)

2021年1月26日

摘要: 标准dqn的策略网络参数更新所采用的规则为Q-learning中的更新规则,总所周知的是Q-learning是异策略算法,异策略算法就是行为策略和评估策略(更新所得策略)是不同的。 更新规则: q-learning 如果使用不使用函数近似来表示Q值,那么存在: 也就是说,只要运行迭代的次数足够多,趋 阅读全文
posted @ 2021-01-26 12:44 Angry_Panda 阅读(2447) 评论(0) 推荐(0)

2021年1月24日

摘要: 《Human-level control through deep reinforcement learning》 是深度强化学习的开创性论文,对于强化学习算法的性能评价在文章中给出了两种方式,分别是: 1. 平均得分。测试性能时agent进行一定的步数执行,记录agent所获得的所有奖励值并对其求 阅读全文
posted @ 2021-01-24 19:40 Angry_Panda 阅读(8287) 评论(0) 推荐(0)

2021年1月23日

摘要: 编程环境:python3 使用环境:特定为东北某海滨高校的校园网 功能: 定期判断是否联网,如果网络端口则自动尽量网络连接操作(校园网登录,login认证) 说明:用户名及密码需要依照个人情况改写方可使用(必须是某高校的校园网下才可使用) # encoding:UTF-8 from urllib.p 阅读全文
posted @ 2021-01-23 08:25 Angry_Panda 阅读(570) 评论(1) 推荐(0)

2021年1月22日

摘要: 本文代码地址: https://gitee.com/devilmaycry812839668/final_-version_-parallelism_-reinforce_-cart-pole 结合了前面几个版本的并行化强化学习的设计,给出了最终版本。gym下简单的CarlPole环境作为仿真环境, 阅读全文
posted @ 2021-01-22 20:57 Angry_Panda 阅读(478) 评论(0) 推荐(0)

2021年1月16日

摘要: 本文代码地址: https://gitee.com/devilmaycry812839668/parallelism_-multi_-step_-reinforce_-cart-pole 和前文: 并行化强化学习 —— 初探 —— 并行reinforce算法的尝试 (中篇:强化学习在大规模仿真环境下 阅读全文
posted @ 2021-01-16 10:49 Angry_Panda 阅读(234) 评论(0) 推荐(0)

2021年1月6日

摘要: 序言:读书的研究方向为强化学习,做学术自然开始着手做的事情就是阅读论文,不过读着读者相关的论文就发现了一些问题,强化学习方向的论文大部分都是上来给出一种在以往算法上的改进,给出具体改进算法的伪代码,然后说下简单的理解判断用来说明一下为什么这个改进的算法有效,但是这往往导致这些所谓的解释难以真正的对其 阅读全文
posted @ 2021-01-06 08:38 Angry_Panda 阅读(1118) 评论(2) 推荐(0)
上一页 1 ··· 206 207 208 209 210 211 212 213 214 ··· 263 下一页

导航