随笔档案「2020年2月」 - yingfengwu

Policy-based Approach(基于策略的方法)

摘要：step 1:Neural Network as Actor step 2:goodness of function(训练一些Actor) 是一个序列，包含T个状态s、行为a、奖励s。代表某一次的开始到结束的过程。是一个奖励和，全部episode从开始到结束的总reward。是某一设定好的参数获阅读全文

posted @ 2020-02-28 17:31 yingfengwu 阅读(428) 评论(0) 推荐(0)

Q函数和值函数

摘要：Q函数：奖励和总奖励是在状态st采取行为at的奖励的期望和值函数：奖励和总奖励是在状态st下获得的奖励的期望和下面是值函数另外的定义，在at行为下采取策略的Q函数的期望是RL的目标函数，我理解为在s1状态下转移到其他状态的概率p(s1)的值函数的期望使用方法1：如果知道策略和，那么就可阅读全文

posted @ 2020-02-23 16:32 yingfengwu 阅读(1163) 评论(0) 推荐(0)

强化学习第二版目录

摘要：原文书籍链接：http://incompleteideas.net/book/RLbook2018.pdf 0 介绍 part Ⅰ：表格型解决方法 1 多臂赌徒问题(Multi-armed Bandits) 2 有限马尔可夫决策过程(Finite Markov Decision Processes) 阅读全文

posted @ 2020-02-22 17:23 yingfengwu 阅读(578) 评论(0) 推荐(0)

tensorboard使用

摘要：1.首先，查看tensorboard的版本在windows命令窗口敲入命令pip list即可查看安装的tensorboard版本，如下所示：查看版本号是为了考虑可能版本的更新导致操作命令的更新 2.执行tensorboard语句使用tensoflow的FileWriter生成对应的神经网络图阅读全文

posted @ 2020-02-04 17:27 yingfengwu 阅读(825) 评论(0) 推荐(0)

强化学习算法类型

摘要：强化学习算法类型策略梯度：可直接区别以上的目标基于值：估计最优策略（不明确哪个是最优的策略情况下估计）的值函数和Q函数 Actor-critic（演员-评论家）：使用当前策略去估计值函数和Q函数来改进策略基于模型：估计转换模型，接着 1.让该模型去规划不明确的策略 2.让该模型去改进策略 3. 阅读全文

posted @ 2020-02-04 12:09 yingfengwu 阅读(627) 评论(0) 推荐(0)

yingfengwu

The so-called excellent person is to let the world, because with me, be a little different.

02 2020 档案

公告