摘要: Bonferroni不等式: $\begin{array}{l} p({A_1} \cap {A_2}) \ge p({A_1}) + p({A_2}) - 1\ p({A_1} \cap {A_2}.... \cap {A_n}) \ge p({A_1}) + p({A_2}) + .... + 阅读全文
posted @ 2021-07-05 16:42 芋圆院长 阅读(2679) 评论(0) 推荐(0)
摘要: 前言 主要参考的是《Reinforcement Learning: An introduction Second Edition》这本书里的例子 英文版地址:http://incompleteideas.net/book/first/ebook/the-book.html 代码源文件可以参考这篇回答 阅读全文
posted @ 2021-06-01 11:27 芋圆院长 阅读(529) 评论(0) 推荐(0)
摘要: 前言 主要参考的是《Reinforcement Learning: An introduction Second Edition》这本书里的例子 英文版地址:http://incompleteideas.net/book/first/ebook/the-book.html 代码源文件可以参考这篇回答 阅读全文
posted @ 2021-05-31 16:33 芋圆院长 阅读(1145) 评论(0) 推荐(0)
摘要: 前言 主要参考的是《Reinforcement Learning: An introduction Second Edition》这本书里的例子 英文版地址:http://incompleteideas.net/book/first/ebook/the-book.html 代码源文件可以参考这篇回答 阅读全文
posted @ 2021-05-31 15:41 芋圆院长 阅读(224) 评论(0) 推荐(0)
摘要: ### 前言 主要参考的是《Reinforcement Learning: An introduction Second Edition》这本书里的例子 英文版地址:http://incompleteideas.net/book/first/ebook/the-book.html 代码源文件可以参考 阅读全文
posted @ 2021-05-31 10:59 芋圆院长 阅读(256) 评论(0) 推荐(0)
摘要: ![image](https://img2020.cnblogs.com/blog/2222564/202105/2222564-20210527194828011-1130593243.png) 阅读全文
posted @ 2021-05-27 19:49 芋圆院长 阅读(32) 评论(0) 推荐(0)
摘要: 开始Python的复习!(以前学的忘了好多-_-) 主要参考的是Github上的一个项目:https://github.com/jackfrued/Python-100-Days 文章主要是对该项目中的内容进行学习 穿插一点自己的学习想法等内容~ 基本的那些变量类型、数据类型、循环等概念就不复习啦 阅读全文
posted @ 2021-05-27 19:43 芋圆院长 阅读(72) 评论(0) 推荐(0)
摘要: n步时序差分方法是单独的蒙特卡罗和时序差分方法更一般的推广,性能通常优于那两种极端形式。 n步TD预测 MC使用完整奖赏序列 一步TD基于下一步奖赏,将一步后的状态值作为剩余奖赏的近似值进行引导更新 n步自举将MC与TD统一,灵活选择用未来n步的数据进行引导更新。更新是基于中间数量的奖赏值 n步Sa 阅读全文
posted @ 2021-05-26 21:22 芋圆院长 阅读(265) 评论(0) 推荐(0)
摘要: 蒙特卡罗方法在没有环境模型的基础上,直接从经验中学习,无需获知环境的全部信息。动态规划从其它的已经学习到的估计值去更新估计值。TD则结合了这两种方法的优点,且不需要等到片段结束。 对于控制问题,也就是寻找一个最优策略,DP、TD和蒙特卡罗方法都是用一些GPI的变量。不同之处在于它们对于预测问题的求解 阅读全文
posted @ 2021-05-25 10:46 芋圆院长 阅读(217) 评论(0) 推荐(0)
摘要: 概念解释 同轨(on policy)策略: 用于生成采样数据序列的策略和用于实际决策的待评估和改进的策略是一样的。在同轨策略方法中,策略一般是软性的(选中任何一个动作的概率大于某个值),会逐渐逼近一个确定性策略。 【同轨策略算法的蒙特卡罗控制的总体思想依然是GPI,采用首次访问型MC算法来估计当前策 阅读全文
posted @ 2021-05-24 11:21 芋圆院长 阅读(1486) 评论(0) 推荐(0)