摘要: 环境: PyCharm 2018.3.6 (Community Edition)Build #PC-183.6156.13, built on April 10, 2019JRE: 1.8.0_152-release-1343-b28 amd64JVM: OpenJDK 64-Bit Server 阅读全文
posted @ 2020-03-28 11:20 yingfengwu 阅读(2790) 评论(0) 推荐(0)
摘要: 转载:https://blog.csdn.net/weixin_44210881/article/details/103031995 当在Window环境下使用Gym模块的时候,基础环境都能使用,但是使用Atari游戏模型会报错 OSError: [WinError 126] 找不到指定的模块。该问 阅读全文
posted @ 2020-03-28 08:09 yingfengwu 阅读(1737) 评论(0) 推荐(0)
摘要: TD Learning(时间差分学习)是RL的核心。 Sutton(1988)提出TD通常对值函数的估计会涉及到学习方法。 Q-learning (Watkins and Dayan, 1992)和SARSA (Rummery and Niranjan, 1994)是时间差分控制方法。 TD lea 阅读全文
posted @ 2020-03-19 11:46 yingfengwu 阅读(283) 评论(0) 推荐(0)
摘要: RL智能体需要在不确定策略的探索(Exploration)和当前策略的开采(Exploitation)之间进行权衡。 智能体会选择贪婪参数,范围在(0,1)上,通常值接近0。 智能体会对当前状态s用的概率采取贪婪行为,用的概率采取随机行为。 那就是智能体用的概率开采(Exploitation)当前最 阅读全文
posted @ 2020-03-19 11:23 yingfengwu 阅读(1061) 评论(0) 推荐(0)
摘要: http://www.atyun.com/10331.html 阅读全文
posted @ 2020-03-19 09:55 yingfengwu 阅读(184) 评论(0) 推荐(0)
摘要: step 1:Neural Network as Actor step 2:goodness of function(训练一些Actor) 是一个序列,包含T个状态s、行为a、奖励s。代表某一次的开始到结束的过程。 是一个奖励和,全部episode从开始到结束的总reward。 是某一设定好的参数获 阅读全文
posted @ 2020-02-28 17:31 yingfengwu 阅读(426) 评论(0) 推荐(0)
摘要: Q函数:奖励和 总奖励是在状态st采取行为at的奖励的期望和 值函数:奖励和 总奖励是在状态st下获得的奖励的期望和 下面是值函数另外的定义,在at行为下采取策略的Q函数的期望 是RL的目标函数,我理解为在s1状态下转移到其他状态的概率p(s1)的值函数的期望 使用 方法1:如果知道策略和,那么就可 阅读全文
posted @ 2020-02-23 16:32 yingfengwu 阅读(1158) 评论(0) 推荐(0)
摘要: 原文书籍链接:http://incompleteideas.net/book/RLbook2018.pdf 0 介绍 part Ⅰ:表格型解决方法 1 多臂赌徒问题(Multi-armed Bandits) 2 有限马尔可夫决策过程(Finite Markov Decision Processes) 阅读全文
posted @ 2020-02-22 17:23 yingfengwu 阅读(577) 评论(0) 推荐(0)
摘要: 1.首先,查看tensorboard的版本 在windows命令窗口敲入命令pip list即可查看安装的tensorboard版本,如下所示: 查看版本号是为了考虑可能版本的更新导致操作命令的更新 2.执行tensorboard语句 使用tensoflow的FileWriter生成对应的神经网络图 阅读全文
posted @ 2020-02-04 17:27 yingfengwu 阅读(822) 评论(0) 推荐(0)
摘要: 强化学习算法类型 策略梯度:可直接区别以上的目标 基于值:估计最优策略(不明确哪个是最优的策略情况下估计)的值函数和Q函数 Actor-critic(演员-评论家):使用当前策略去估计值函数和Q函数来改进策略 基于模型:估计转换模型,接着 1.让该模型去规划不明确的策略 2.让该模型去改进策略 3. 阅读全文
posted @ 2020-02-04 12:09 yingfengwu 阅读(612) 评论(0) 推荐(0)