强化学习 - 随笔分类 - 又是秃头的一天

强化学习-蒙特卡洛方法

摘要：参考：（1）强化学习（第二版）（2）强化学习精要-核心算法与TensorFlow实现（3）https://www.cnblogs.com/pinard/p/9492980.html （4）https://deepmind.com/learning-resources/-introduction 阅读全文

posted @ 2022-03-19 22:03 又是秃头的一天阅读(1658) 评论(0) 推荐(1)

强化学习-广义策略迭代

摘要：参考：（1）强化学习（第二版）（2）强化学习精要-核心算法与TensorFlow实现一、广义策略迭代（GPI）策略迭代包括两个同时进行的相互作用的流程，即策略评估和策略改进。策略总是基于特定的价值函数进行改进，价值函数也始终会向对应特定策略的真实价值函数收敛。我们可以从图中看出，策略改进会使阅读全文

posted @ 2022-03-04 17:59 又是秃头的一天阅读(653) 评论(0) 推荐(0)

强化学习-价值迭代

摘要：参考：（1）强化学习（第二版）（2）强化学习精要-核心算法与TensorFlow实现一、价值迭代策略迭代算法的一个缺点是每一次迭代都涉及了策略评估，这本身就是一个需要多次遍历状态集合的迭代过程。那我们是否必须等到$v_{\pi}$完全收敛，还是可以提前结束？事实上是可以的。我们可以截断策略迭阅读全文

posted @ 2022-03-04 11:05 又是秃头的一天阅读(652) 评论(0) 推荐(0)

强化学习-策略迭代

摘要：参考：（1）强化学习（第二版）（2）强化学习精要-核心算法与TensorFlow实现一、策略迭代 1、策略评估给定策略$\pi$，计算其价值函数，即为策略评估，有时也称其为预测问题。方法：根据$v_{\pi}$的贝尔曼方程$v_{\pi}\left( s \right)=\sum_{a}{ 阅读全文

posted @ 2022-03-03 17:16 又是秃头的一天阅读(1051) 评论(0) 推荐(0)

强化学习-马尔可夫决策过程

摘要：参考：（1）强化学习（第二版）（2）https://b23.tv/fOmHymj（推荐）（3）https://www.cnblogs.com/pinard/p/9426283.html （4）https://blog.csdn.net/liweibin1994/article/details/ 阅读全文

posted @ 2022-03-03 00:06 又是秃头的一天阅读(317) 评论(0) 推荐(0)

随笔分类 - 强化学习

公告