8_课程学习-强化学习(David Silver) - 随笔分类 - _1024

强化学习 Note

摘要：1、这篇note来自https://www.zybuluo.com/tinadu/note/629229 1.1、初步作者认为，DRL可以用于解决通用人工智能问题，通用人工智能包含3部分：通用任务：解决一般性任务，减少对领域知识的依赖；非线性的神经网络可以表征这一问题；学习能力：学习分为归纳和阅读全文

posted @ 2017-10-30 18:46 _1024 阅读(464) 评论(0) 推荐(0)

强化学习(David Silver)9：探索与利用

摘要：1、介绍 1.1、探索方案的策略 1) 随机探索 2) 面对不确定性保持乐观: 估计不确定的值; 选择不确定最大的探索 3) 信息状态空间: 把代理的信息看做值的一部分; 考虑那些有助于提高reward的收益 1.2、探索的方式 1) 在状态-动作空间泰索 2) 在参数空间探索优势: 连续探索劣阅读全文

posted @ 2017-10-23 19:04 _1024 阅读(1685) 评论(0) 推荐(0)

强化学习(David Silver)8：集成学习和计划

摘要：1、介绍这课中的规划就是预测 1.1、Model-Based的两层含义 agent学习环境从一个状态向另一个状态的转移 agent学习状态转移收益 ps: model的学习主体是agent 1.2、利弊利: 通过监督学习高效学习; 解释model的不确定原因弊: 学习模型+构造值函数, 叠加两阅读全文

posted @ 2017-10-22 23:25 _1024 阅读(985) 评论(0) 推荐(0)

强化学习(David Silver)7：策略梯度算法

摘要：1、简介 1.1、PolicyBased方法优劣优势：更好的收敛特性在高维或者连续的action空间里面有效可以学习随机策略劣势：收敛到局部最优，而非全局最优 policy估计训练慢、高方差，有时候没有值函数有效:ValueBased方法使用Max贪心优化跑得快; 策略梯度方法在梯度方向阅读全文

posted @ 2017-10-20 19:52 _1024 阅读(1757) 评论(0) 推荐(0)

强化学习(David Silver)6：值函数近似

摘要：1、简介 1.1、为什么有值函数近似状态空间太大，基于DP/MC/TD的方法的离散值太多，存储量太大，运行太慢 1.2、值函数近似有两种方法一个是状态值函数方法；一个是状态动作值方法 1.3、值函数近似的三种类型类型1：输入状态S，输出v 类型2：输入状态S，action a，输出Q(s,a, 阅读全文

posted @ 2017-08-18 01:12 _1024 阅读(1209) 评论(1) 推荐(0)

强化学习(David Silver)5: 免模型控制

摘要：1、简介为什么需要免模型控制 1) 有的MDP未知，但是可以采样 2) 有的MDP已知，但是空间太大，需要采样同策略学习从经历的同策略样本中学习异策略学习从类似的策略空间中采样 2、同策略MC 2.1、一般的GPI(一般策略迭代) 策略评估+策略改善 2.2、同策略MC 用MC做策略评估( 阅读全文

posted @ 2017-08-17 10:31 _1024 阅读(502) 评论(0) 推荐(0)

强化学习(David Silver)4：免模型学习

摘要：0、为什么免模型学习？ 0、为什么免模型学习？在已知的MDP中，可以使用DP来计算求解RL 但是在未知MDP中，没有转移函数，不能直接求解，此时MDP未知，需要使用采样方法，也就是本课中的Model-Free方法 PS：课程中迭代的值是值函数；周志华老师的西瓜书中迭代的是状态值函数；课程中迭代的是阅读全文

posted @ 2017-08-16 22:31 _1024 阅读(491) 评论(0) 推荐(0)

强化学习(David Silver)3：动态规划

摘要：1、简介 1.1、动态规划动态规划的性质:最优子结构；无后向性动态规划假定MDP所有信息已知，解决的是planning问题，不是RL问题 1.2、两类问题预测问题：给定策略，给出MDP/MRP和策略，计算策略值函数控制问题：不给策略，给出MDP/MRP，得出最优策略值函数 2、策略评估通过阅读全文

posted @ 2017-08-15 23:16 _1024 阅读(499) 评论(0) 推荐(0)

强化学习(David Silver)2：MDP

摘要：1、MP(马尔科夫过程) 1.1、MDP介绍 1）MDP形式化地表达强化学习的过程(此时假设环境完全可以观察) 2) 几乎所有强化学习问题都可以形式化为MDP 1.2、MDP定义 MDP是一个二元组<S，P>，其中S是状态集合；P是状态转移概率 2、MRP(马尔科夫奖励过程) 在MP中加入了Rewa 阅读全文

posted @ 2017-08-14 05:15 _1024 阅读(681) 评论(0) 推荐(0)

强化学习(David Silver)1：简介

摘要：1、书《An introduction to Reforcement Learning》Sutton and Barto, 1998，400页《Algorithms for Reforcement Learning》Szepesvari，2010，偏数学，不到100页 2、强化学习的特点不存在阅读全文

posted @ 2017-08-13 21:49 _1024 阅读(1388) 评论(0) 推荐(0)

随笔分类 - 8_课程学习-强化学习(David Silver)