摘要: 强化学习之基于表格型方法的规划和学习(七)-- 启发式搜索、预演算法、蒙特卡罗树搜索 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第九、十、十一节 启发式搜索 启发式搜索是在搜索过程中加入别的表征量,帮助搜索更加快捷准确,不需要像之前一样全部遍历。 在启发式搜索中,对于每个遇到的状态,都建立一 阅读全文
posted @ 2021-10-11 21:42 芋圆院长 阅读(400) 评论(0) 推荐(0)
摘要: 强化学习之基于表格型方法的规划和学习(六)-- 决策时规划 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第八节 我们在之前提过,规划用通俗的语言来解释就是分析已有的东西,做出在当前条件下最好的选择。然后根据这一尝试继续去分析找到好的策略和动作去执行。 后台规划是一直在 阅读全文
posted @ 2021-10-11 20:24 芋圆院长 阅读(174) 评论(0) 推荐(0)
摘要: 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第七节 本节介绍的是轨迹采样的一个特例 实时动态规划 实时动态规划(real-time dynamic programming, RTDP)是动态规划(Dynami 阅读全文
posted @ 2021-10-11 19:48 芋圆院长 阅读(243) 评论(0) 推荐(0)
摘要: 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第六节 第五节主要阐述了两种状态更新过程的优缺点对比,本节主要介绍两种分布式更新过程的算力分配方法:即着重更新哪些状态 一种方法是基于动态规划的经典方法:遍历整个状 阅读全文
posted @ 2021-10-11 15:08 芋圆院长 阅读(662) 评论(0) 推荐(0)
摘要: 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第四、五节 在这一章的脉络中,首先将有模型和无模型的方法联系起来,平衡了真实经验和模拟经验,给出了使用表格型方法求解的基本模型,对环境进行统一。然后讨论了环境发生变 阅读全文
posted @ 2021-10-11 11:25 芋圆院长 阅读(151) 评论(0) 推荐(0)
摘要: 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第三节 上一节讲到使用Dyna算法将学习和规划结合到一起,实现在线规划:一边与环境交互积攒经验,一边利用经验对当前情况进行总结寻找下一次与环境交互的合适动作。填充的 阅读全文
posted @ 2021-09-30 11:18 芋圆院长 阅读(152) 评论(0) 推荐(0)
摘要: 马尔可夫不等式 若随机变量$X$只取非负值,则任意$a>0$,有$P(X>=a)<=\frac{E(X)}{a}$ 该不等式的证明主要是利用对期望概念的理解,根据下图的计算过程走就是了。 该不等式对随机变量的信息利用不够全面,只使用了期望进行计算,所以计算出来的概率上界比较宽松。 据此推出的切比雪夫 阅读全文
posted @ 2021-09-27 21:31 芋圆院长 阅读(1217) 评论(0) 推荐(0)
摘要: 条件概率定义 对条件概率的定义最初起源于离散事件,事件A和事件B的发生之间存在什么关系。在事件A发生的情况下,有多大的概率事件B可以发生? 从上边的图片分析,就是当我知道自己在右边紫色的圈中,我同样还有粉色成分的概率是多少? 注意这个前提,我在紫色圈中。这是一个已知的信息,借用参考链接2中的一句话: 阅读全文
posted @ 2021-09-22 15:39 芋圆院长 阅读(1086) 评论(0) 推荐(0)
摘要: 统计学是一门怎样的学科 重新梳理一遍自己对统计、概率、随机过程等的理解 数学本身是一门用数字刻画世界的语言,用给定的公理进行推理得到新的结果。本质就是类比 探索 寻找和发现。 将一种东西转化为使用数字表示,通过数字之间的运算得到规律,再返回到实践中去指导了解和探索。 那么概率实际上就是对样本空间中的 阅读全文
posted @ 2021-09-10 20:26 芋圆院长 阅读(1259) 评论(0) 推荐(0)
摘要: 前言 在目前涉及到的构建目标策略时都包含了最大化操作,总是选择最大的那个(贪心策略,例如Q-learning、Sarsa等)。这些算法在估计值的基础上进行最大化可以被看做隐式地对最大值进行估计,例如真值为0,但估计有正有负 直接选择最大化处理,估计出来的真值一定是正的。这就可以被称为最大化偏差【将估 阅读全文
posted @ 2021-09-08 20:58 芋圆院长 阅读(216) 评论(0) 推荐(0)