强化学习 Note
摘要:1、这篇note来自https://www.zybuluo.com/tinadu/note/629229 1.1、初步 作者认为,DRL可以用于解决通用人工智能问题,通用人工智能包含3部分: 通用任务:解决一般性任务,减少对领域知识的依赖;非线性的神经网络可以表征这一问题; 学习能力:学习分为归纳和
阅读全文
强化学习(David Silver)9:探索与利用
摘要:1、介绍 1.1、探索方案的策略 1) 随机探索 2) 面对不确定性保持乐观: 估计不确定的值; 选择不确定最大的探索 3) 信息状态空间: 把代理的信息看做值的一部分; 考虑那些有助于提高reward的收益 1.2、探索的方式 1) 在状态-动作空间泰索 2) 在参数空间探索 优势: 连续探索 劣
阅读全文
强化学习(David Silver)8:集成学习和计划
摘要:1、介绍 这课中的规划就是预测 1.1、Model-Based的两层含义 agent学习环境从一个状态向另一个状态的转移 agent学习状态转移收益 ps: model的学习主体是agent 1.2、利弊 利: 通过监督学习高效学习; 解释model的不确定原因 弊: 学习模型+构造值函数, 叠加两
阅读全文
强化学习(David Silver)7:策略梯度算法
摘要:1、简介 1.1、PolicyBased方法优劣 优势: 更好的收敛特性 在高维或者连续的action空间里面有效 可以学习随机策略 劣势: 收敛到局部最优,而非全局最优 policy估计训练慢、高方差,有时候没有值函数有效:ValueBased方法使用Max贪心优化跑得快; 策略梯度方法在梯度方向
阅读全文
强化学习(David Silver)6:值函数近似
摘要:1、简介 1.1、为什么有值函数近似 状态空间太大,基于DP/MC/TD的方法的离散值太多,存储量太大,运行太慢 1.2、值函数近似有两种方法 一个是状态值函数方法;一个是状态动作值方法 1.3、值函数近似的三种类型 类型1:输入状态S,输出v 类型2:输入状态S,action a,输出Q(s,a,
阅读全文
强化学习(David Silver)5: 免模型控制
摘要:1、简介 为什么需要免模型控制 1) 有的MDP未知,但是可以采样 2) 有的MDP已知,但是空间太大,需要采样 同策略学习 从经历的同策略样本中学习 异策略学习 从类似的策略空间中采样 2、同策略MC 2.1、一般的GPI(一般策略迭代) 策略评估+策略改善 2.2、同策略MC 用MC做策略评估(
阅读全文
强化学习(David Silver)4:免模型学习
摘要:0、为什么免模型学习? 0、为什么免模型学习? 在已知的MDP中,可以使用DP来计算求解RL 但是在未知MDP中,没有转移函数,不能直接求解,此时MDP未知,需要使用采样方法,也就是本课中的Model-Free方法 PS:课程中迭代的值是值函数;周志华老师的西瓜书中迭代的是状态值函数;课程中迭代的是
阅读全文
强化学习(David Silver)3:动态规划
摘要:1、简介 1.1、动态规划 动态规划的性质:最优子结构;无后向性 动态规划假定MDP所有信息已知,解决的是planning问题,不是RL问题 1.2、两类问题 预测问题:给定策略,给出MDP/MRP和策略,计算策略值函数 控制问题:不给策略,给出MDP/MRP,得出最优策略值函数 2、策略评估 通过
阅读全文
强化学习(David Silver)2:MDP
摘要:1、MP(马尔科夫过程) 1.1、MDP介绍 1)MDP形式化地表达强化学习的过程(此时假设环境完全可以观察) 2) 几乎所有强化学习问题都可以形式化为MDP 1.2、MDP定义 MDP是一个二元组<S,P>,其中S是状态集合;P是状态转移概率 2、MRP(马尔科夫奖励过程) 在MP中加入了Rewa
阅读全文
强化学习(David Silver)1:简介
摘要:1、书 《An introduction to Reforcement Learning》Sutton and Barto, 1998,400页 《Algorithms for Reforcement Learning》Szepesvari,2010,偏数学,不到100页 2、强化学习的特点 不存在
阅读全文