02 2020 档案

摘要:step 1:Neural Network as Actor step 2:goodness of function(训练一些Actor) 是一个序列,包含T个状态s、行为a、奖励s。代表某一次的开始到结束的过程。 是一个奖励和,全部episode从开始到结束的总reward。 是某一设定好的参数获 阅读全文
posted @ 2020-02-28 17:31 yingfengwu 阅读(428) 评论(0) 推荐(0)
摘要:Q函数:奖励和 总奖励是在状态st采取行为at的奖励的期望和 值函数:奖励和 总奖励是在状态st下获得的奖励的期望和 下面是值函数另外的定义,在at行为下采取策略的Q函数的期望 是RL的目标函数,我理解为在s1状态下转移到其他状态的概率p(s1)的值函数的期望 使用 方法1:如果知道策略和,那么就可 阅读全文
posted @ 2020-02-23 16:32 yingfengwu 阅读(1163) 评论(0) 推荐(0)
摘要:原文书籍链接:http://incompleteideas.net/book/RLbook2018.pdf 0 介绍 part Ⅰ:表格型解决方法 1 多臂赌徒问题(Multi-armed Bandits) 2 有限马尔可夫决策过程(Finite Markov Decision Processes) 阅读全文
posted @ 2020-02-22 17:23 yingfengwu 阅读(578) 评论(0) 推荐(0)
摘要:1.首先,查看tensorboard的版本 在windows命令窗口敲入命令pip list即可查看安装的tensorboard版本,如下所示: 查看版本号是为了考虑可能版本的更新导致操作命令的更新 2.执行tensorboard语句 使用tensoflow的FileWriter生成对应的神经网络图 阅读全文
posted @ 2020-02-04 17:27 yingfengwu 阅读(825) 评论(0) 推荐(0)
摘要:强化学习算法类型 策略梯度:可直接区别以上的目标 基于值:估计最优策略(不明确哪个是最优的策略情况下估计)的值函数和Q函数 Actor-critic(演员-评论家):使用当前策略去估计值函数和Q函数来改进策略 基于模型:估计转换模型,接着 1.让该模型去规划不明确的策略 2.让该模型去改进策略 3. 阅读全文
posted @ 2020-02-04 12:09 yingfengwu 阅读(627) 评论(0) 推荐(0)