• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
Vpegasus
E-mail: pegasus.wenjia@foxmail.com
博客园    首页    新随笔    联系   管理    订阅  订阅
2018年8月12日
强化学习(五):时间差分学习
摘要: Temporal Difference Learning TD在强化学习中处于中心位置,它结合了DP与MC两种思想。如MC, TD可以直接从原始经验中学习,且不需要对环境有整体的认知。也如DP一样,它不需要等到最终结果才开始学习,它Bootstrap,即它的每步估计会部分地基于之前的估计。 最简单的 阅读全文
posted @ 2018-08-12 23:58 Vpegasus 阅读(1158) 评论(0) 推荐(0)
强化学习(四):蒙特卡洛方法
摘要: Monte Carlo Methods MC方法不需要对环境完全了解,只需要可以从环境中采样即可。MC方法基于平均样品收益(Averaging Sample Returns)。通常,MC方法应用于片段式任务(Episodic Tasks)。 Monte Carlo Prediction First 阅读全文
posted @ 2018-08-12 23:56 Vpegasus 阅读(850) 评论(0) 推荐(0)
强化学习(三):动态规划
摘要: Dynamic Programming DP指的是一套算法集,这样的算法集在环境模型是一种马尔可夫决策过程且已知的情况下,可以用于计算得到最优的决策。由于要求已知完美的模型且计算量极大,DP的实用性不强,但其理论意义是很重要的。因为在强化学习后面接触的算法都是企图克服完美模型假定与大量计算并得到与D 阅读全文
posted @ 2018-08-12 23:52 Vpegasus 阅读(463) 评论(0) 推荐(0)
强化学习(二):马尔可夫决策过程
摘要: Finite Markov Decision Process 马尔可夫决策过程(MDP)是对连续决策进行建模,当前的动作不仅对当前产生影响,而且还会对将来的的情况产生影响,如果从奖励的角度,即MDP不仅影响即时的奖励,而且还会影响将来的长期奖励,因此,MDP需要对即时奖励与长期奖励的获得进行权衡。 阅读全文
posted @ 2018-08-12 23:48 Vpegasus 阅读(902) 评论(0) 推荐(0)
强化学习(一): 引入
摘要: 今天开始连载强化学习,这个是以前看Reinforcement Learning: An Introduction 这本书做的笔记,最近发现Richard S. Sutton 和 Andrew G. Barto还在为本书更新,所以就想着把原来的笔记也更新一下,整理然后放在这里。 因为是笔记形式,所以这 阅读全文
posted @ 2018-08-12 11:11 Vpegasus 阅读(357) 评论(0) 推荐(0)
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3