摘要: 参考: (1)强化学习(第二版) (2)强化学习精要-核心算法与TensorFlow实现 (3)https://www.cnblogs.com/pinard/p/9492980.html (4)https://deepmind.com/learning-resources/-introduction 阅读全文
posted @ 2022-03-19 22:03 又是秃头的一天 阅读(1658) 评论(0) 推荐(1)
摘要: 参考: (1)强化学习(第二版) (2)强化学习精要-核心算法与TensorFlow实现 一、广义策略迭代(GPI) 策略迭代包括两个同时进行的相互作用的流程,即策略评估和策略改进。策略总是基于特定的价值函数进行改进,价值函数也始终会向对应特定策略的真实价值函数收敛。我们可以从图中看出,策略改进会使 阅读全文
posted @ 2022-03-04 17:59 又是秃头的一天 阅读(652) 评论(0) 推荐(0)
摘要: 参考: (1)强化学习(第二版) (2)强化学习精要-核心算法与TensorFlow实现 一、价值迭代 策略迭代算法的一个缺点是每一次迭代都涉及了策略评估,这本身就是一个需要多次遍历状态集合的迭代过程。那我们是否必须等到$v_{\pi}$完全收敛,还是可以提前结束?事实上是可以的。我们可以截断策略迭 阅读全文
posted @ 2022-03-04 11:05 又是秃头的一天 阅读(652) 评论(0) 推荐(0)
摘要: 参考: (1)强化学习(第二版) (2)强化学习精要-核心算法与TensorFlow实现 一、策略迭代 1、策略评估 给定策略$\pi$,计算其价值函数,即为策略评估,有时也称其为预测问题。 方法:根据$v_{\pi}$的贝尔曼方程$v_{\pi}\left( s \right)=\sum_{a}{ 阅读全文
posted @ 2022-03-03 17:16 又是秃头的一天 阅读(1050) 评论(0) 推荐(0)
摘要: 参考: (1)强化学习(第二版) (2)https://b23.tv/fOmHymj(推荐) (3)https://www.cnblogs.com/pinard/p/9426283.html (4)https://blog.csdn.net/liweibin1994/article/details/ 阅读全文
posted @ 2022-03-03 00:06 又是秃头的一天 阅读(317) 评论(0) 推荐(0)
摘要: 安装步骤参考链接:https://stackoverflow.com/questions/69442971/error-in-importing-environment-openai-gym 一、步骤概述 1、激活Anaconda环境 2、安装gym 3、安装Atari游戏环境 4、验证安装是否成功 阅读全文
posted @ 2022-02-17 17:15 又是秃头的一天 阅读(3054) 评论(0) 推荐(0)
摘要: Anaconda+tensorflow-gpu2.6.0+python3.7+cuda11.2+cudnn8.1 一、步骤概述 1、查看电脑对应的cuda版本 2、查看所需的tensorflow-gup版本对应的cuda版本和cudnn版本(请在安装前一定要注意tensorflow-gpu,cuda 阅读全文
posted @ 2022-02-05 16:09 又是秃头的一天 阅读(184) 评论(0) 推荐(0)
摘要: 参考: https://zhuanlan.zhihu.com/p/261695487(推荐) https://blog.csdn.net/qq_19917367/article/details/119208803 https://zhuanlan.zhihu.com/p/61955391(推荐) h 阅读全文
posted @ 2022-02-01 14:28 又是秃头的一天 阅读(1222) 评论(0) 推荐(0)
摘要: 参考: (1)https://www.cnblogs.com/csguo/p/7521441.html(2)https://blog.csdn.net/daaikuaichuan/article/details/81382794(3)https://blog.csdn.net/myarrow/art 阅读全文
posted @ 2022-01-10 18:33 又是秃头的一天 阅读(204) 评论(0) 推荐(0)