摘要: 8-探索与开发(Exploration and Exploitation) 1.导论 探索与开发二难问题 基于决策的决策过程存在以下两种选择 开发:基于目前的学习做最优的决策 探索:获取更多的学习 最佳的长期策略或许会包含一些短期的牺牲 获取足够的信息更能得到最为全面的决策 探索的方案(Approa 阅读全文
posted @ 2021-01-17 20:24 Uzuki 阅读(2239) 评论(0) 推荐(1) 编辑
摘要: 7-融合学习与规划(Integrating Learning and Planning) 1.导论 基于模型的强化学习(Model-Based Reinforcement Learning) 在上一个课程中,是从记录序列中直接学习策略的 在过往的课程中,是从记录序列中直接学习价值函数的 而本次课程, 阅读全文
posted @ 2021-01-17 20:13 Uzuki 阅读(509) 评论(0) 推荐(0) 编辑
摘要: 6-策略梯度方法(Policy Gradient Method) 策略梯度概论(Introduction) 基于策略(Policy-Based) 的强化学习 对于上一节课(价值函数拟合)中采用参数$\theta$来估计价值和动作-价值函数 \[ \begin{align} V_\theta(S) & 阅读全文
posted @ 2021-01-17 20:10 Uzuki 阅读(799) 评论(0) 推荐(0) 编辑
摘要: 价值函数拟合(Value Function Approximation) 导论(Introduction) 目前的价值函数都是基于打表法(lookup table)进行穷举 对于所有状态$s$都有一个实体$V(s)$去表示 或者对于每个状态-价值函数对$s,a$都有一个实体$Q(s,a)$去表示 对 阅读全文
posted @ 2021-01-17 19:55 Uzuki 阅读(480) 评论(0) 推荐(0) 编辑
摘要: 无模型控制(Model-Free Control) 无模型预测概论 上一节课: 无模型预测 用于估计一个未知马尔科夫决策过程的价值函数 这节课 无模型控制 最优化一个未知马尔科夫决策过程的价值函数 一般在以下两种情况采用无模型预测 马尔科夫决策过程是未知的,仅能通过采用得到记录 马尔科夫决策过程是已 阅读全文
posted @ 2021-01-17 19:47 Uzuki 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 上一节课《通过DP求解》可以解决一个已知的马尔科夫决策过程 本节课 实践无模型预测 解决或者估计一个未知马尔科夫决策过程的价值函数 下一节课 实现无模型决策(Model-free control) 最优化一个马尔科夫决策过程的价值函数 阅读全文
posted @ 2021-01-17 19:36 Uzuki 阅读(688) 评论(0) 推荐(0) 编辑
摘要: 动态(Dynamic):序列性又或是时序性的问题部分 规划(Programming):最优化一个程序(Program),i.e 一种策略 线性规划(Linear Programming) 显然马尔科夫决策过程就符合动态规划的顺序 阅读全文
posted @ 2021-01-17 18:09 Uzuki 阅读(493) 评论(0) 推荐(0) 编辑