随笔分类 - 强化学习
摘要:参考:https://zhuanlan.zhihu.com/p/91577331
阅读全文
摘要:Action Space(行为空间) 定义:在所在环境中所有有效的行为的集合叫行为空间。 一些环境是有离散的行为,对于agent来说是有限的行为,如Atari游戏、Alpha Go。 其他的环境是有连续的行为,如在真实世界的机器人的控制角度等。 Policy(策略) 定义:策略是一种被agent使用
阅读全文
摘要:TD Learning(时间差分学习)是RL的核心。 Sutton(1988)提出TD通常对值函数的估计会涉及到学习方法。 Q-learning (Watkins and Dayan, 1992)和SARSA (Rummery and Niranjan, 1994)是时间差分控制方法。 TD lea
阅读全文
摘要:RL智能体需要在不确定策略的探索(Exploration)和当前策略的开采(Exploitation)之间进行权衡。 智能体会选择贪婪参数,范围在(0,1)上,通常值接近0。 智能体会对当前状态s用的概率采取贪婪行为,用的概率采取随机行为。 那就是智能体用的概率开采(Exploitation)当前最
阅读全文
摘要:http://www.atyun.com/10331.html
阅读全文
摘要:step 1:Neural Network as Actor step 2:goodness of function(训练一些Actor) 是一个序列,包含T个状态s、行为a、奖励s。代表某一次的开始到结束的过程。 是一个奖励和,全部episode从开始到结束的总reward。 是某一设定好的参数获
阅读全文
摘要:Q函数:奖励和 总奖励是在状态st采取行为at的奖励的期望和 值函数:奖励和 总奖励是在状态st下获得的奖励的期望和 下面是值函数另外的定义,在at行为下采取策略的Q函数的期望 是RL的目标函数,我理解为在s1状态下转移到其他状态的概率p(s1)的值函数的期望 使用 方法1:如果知道策略和,那么就可
阅读全文
摘要:原文书籍链接:http://incompleteideas.net/book/RLbook2018.pdf 0 介绍 part Ⅰ:表格型解决方法 1 多臂赌徒问题(Multi-armed Bandits) 2 有限马尔可夫决策过程(Finite Markov Decision Processes)
阅读全文
摘要:强化学习算法类型 策略梯度:可直接区别以上的目标 基于值:估计最优策略(不明确哪个是最优的策略情况下估计)的值函数和Q函数 Actor-critic(演员-评论家):使用当前策略去估计值函数和Q函数来改进策略 基于模型:估计转换模型,接着 1.让该模型去规划不明确的策略 2.让该模型去改进策略 3.
阅读全文
摘要:强化学习一般分为无模型的强化学习(Model-Free RL)和基于模型的强化学习(Model-Based RL) ·无模型的强化学习又分为Policy Optimization和Q-learning 使用Policy Optimization的算法:Policy Gradient、A2C/A3C、
阅读全文

浙公网安备 33010602011771号