• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • YouClaw
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
 






_1024

 
 

Powered by 博客园
博客园 | 首页 | 新随笔 | 联系 | 订阅 订阅 | 管理

随笔分类 -  8_课程学习-强化学习(David Silver)

David Silver的强化学习课程
 
强化学习 Note
摘要:1、这篇note来自https://www.zybuluo.com/tinadu/note/629229 1.1、初步 作者认为,DRL可以用于解决通用人工智能问题,通用人工智能包含3部分: 通用任务:解决一般性任务,减少对领域知识的依赖;非线性的神经网络可以表征这一问题; 学习能力:学习分为归纳和 阅读全文
posted @ 2017-10-30 18:46 _1024 阅读(464) 评论(0) 推荐(0)
强化学习(David Silver)9:探索与利用
摘要:1、介绍 1.1、探索方案的策略 1) 随机探索 2) 面对不确定性保持乐观: 估计不确定的值; 选择不确定最大的探索 3) 信息状态空间: 把代理的信息看做值的一部分; 考虑那些有助于提高reward的收益 1.2、探索的方式 1) 在状态-动作空间泰索 2) 在参数空间探索 优势: 连续探索 劣 阅读全文
posted @ 2017-10-23 19:04 _1024 阅读(1685) 评论(0) 推荐(0)
强化学习(David Silver)8:集成学习和计划
摘要:1、介绍 这课中的规划就是预测 1.1、Model-Based的两层含义 agent学习环境从一个状态向另一个状态的转移 agent学习状态转移收益 ps: model的学习主体是agent 1.2、利弊 利: 通过监督学习高效学习; 解释model的不确定原因 弊: 学习模型+构造值函数, 叠加两 阅读全文
posted @ 2017-10-22 23:25 _1024 阅读(985) 评论(0) 推荐(0)
强化学习(David Silver)7:策略梯度算法
摘要:1、简介 1.1、PolicyBased方法优劣 优势: 更好的收敛特性 在高维或者连续的action空间里面有效 可以学习随机策略 劣势: 收敛到局部最优,而非全局最优 policy估计训练慢、高方差,有时候没有值函数有效:ValueBased方法使用Max贪心优化跑得快; 策略梯度方法在梯度方向 阅读全文
posted @ 2017-10-20 19:52 _1024 阅读(1757) 评论(0) 推荐(0)
强化学习(David Silver)6:值函数近似
摘要:1、简介 1.1、为什么有值函数近似 状态空间太大,基于DP/MC/TD的方法的离散值太多,存储量太大,运行太慢 1.2、值函数近似有两种方法 一个是状态值函数方法;一个是状态动作值方法 1.3、值函数近似的三种类型 类型1:输入状态S,输出v 类型2:输入状态S,action a,输出Q(s,a, 阅读全文
posted @ 2017-08-18 01:12 _1024 阅读(1209) 评论(1) 推荐(0)
强化学习(David Silver)5: 免模型控制
摘要:1、简介 为什么需要免模型控制 1) 有的MDP未知,但是可以采样 2) 有的MDP已知,但是空间太大,需要采样 同策略学习 从经历的同策略样本中学习 异策略学习 从类似的策略空间中采样 2、同策略MC 2.1、一般的GPI(一般策略迭代) 策略评估+策略改善 2.2、同策略MC 用MC做策略评估( 阅读全文
posted @ 2017-08-17 10:31 _1024 阅读(502) 评论(0) 推荐(0)
强化学习(David Silver)4:免模型学习
摘要:0、为什么免模型学习? 0、为什么免模型学习? 在已知的MDP中,可以使用DP来计算求解RL 但是在未知MDP中,没有转移函数,不能直接求解,此时MDP未知,需要使用采样方法,也就是本课中的Model-Free方法 PS:课程中迭代的值是值函数;周志华老师的西瓜书中迭代的是状态值函数;课程中迭代的是 阅读全文
posted @ 2017-08-16 22:31 _1024 阅读(491) 评论(0) 推荐(0)
强化学习(David Silver)3:动态规划
摘要:1、简介 1.1、动态规划 动态规划的性质:最优子结构;无后向性 动态规划假定MDP所有信息已知,解决的是planning问题,不是RL问题 1.2、两类问题 预测问题:给定策略,给出MDP/MRP和策略,计算策略值函数 控制问题:不给策略,给出MDP/MRP,得出最优策略值函数 2、策略评估 通过 阅读全文
posted @ 2017-08-15 23:16 _1024 阅读(498) 评论(0) 推荐(0)
强化学习(David Silver)2:MDP
摘要:1、MP(马尔科夫过程) 1.1、MDP介绍 1)MDP形式化地表达强化学习的过程(此时假设环境完全可以观察) 2) 几乎所有强化学习问题都可以形式化为MDP 1.2、MDP定义 MDP是一个二元组<S,P>,其中S是状态集合;P是状态转移概率 2、MRP(马尔科夫奖励过程) 在MP中加入了Rewa 阅读全文
posted @ 2017-08-14 05:15 _1024 阅读(681) 评论(0) 推荐(0)
强化学习(David Silver)1:简介
摘要:1、书 《An introduction to Reforcement Learning》Sutton and Barto, 1998,400页 《Algorithms for Reforcement Learning》Szepesvari,2010,偏数学,不到100页 2、强化学习的特点 不存在 阅读全文
posted @ 2017-08-13 21:49 _1024 阅读(1388) 评论(0) 推荐(0)