摘要: 在这一章中我们从一种统一的视角结合了强化学习中有模型的方法和无模型的方法。基于模型的方法的主要部分是规划,无模型的方法主要依赖学习。这两类方法有共同的基础体现在值函数。 都依靠值函数的计算 再者这些方法都是基于未来状态然后靠反向传播来更新当前值函数。 8.1 模型和规划 agent可以根据环境的模型 阅读全文
posted @ 2020-12-27 21:45 invincible~ 阅读(153) 评论(0) 推荐(0)
摘要: 7.1 n步TD预测 一步TD方法是等一个时间步数后根据下一个状态的估计值自举计算,而蒙特卡洛方法是等所有的时间步数完成后进行计算,n步自举是中间的任何数,可以是二步自举,也可以是三步自举···下图展示了三者之间的区别。 这种方法仍然是TD方法,是因为仍然是根据后来的估计值的差别来更行之前的估计值, 阅读全文
posted @ 2020-12-27 21:10 invincible~ 阅读(190) 评论(0) 推荐(0)
摘要: If one had to identify one idea as central and novel to reinforcement learning, it would undoubtedly be temporal-difference (TD) learning. TD方法是蒙特卡洛方法 阅读全文
posted @ 2020-12-27 20:29 invincible~ 阅读(182) 评论(0) 推荐(0)
摘要: 蒙特卡洛方法不需要对环境模型有完全的认识。总结来说,蒙特卡罗方法是从经验中学习值函数和策略的方法。 可以从与真实环境的交互中学习,并不需要模型; 能从模拟中学习,不需要概率分布。(不像DP,需要全部的分布,现在只需要给出reward和 next_state) 可以从任意的state和action开始 阅读全文
posted @ 2020-12-26 22:14 invincible~ 阅读(189) 评论(0) 推荐(0)
摘要: The term dynamic programming (DP) refers to a collection of algorithms that can be used to compute optimal policies given a perfect model of the envir 阅读全文
posted @ 2020-12-26 22:01 invincible~ 阅读(139) 评论(0) 推荐(0)
摘要: 学习需要什么 简单 知识的简单化,是快速高效地学习必经之路。 兴趣 没有兴趣,不好玩,还学个锤子。 自信 没有自信,啥都不好办。 如何高效学习 站在巨人的肩膀上,通过: 书籍 视频 博客 自己练习 写博客 给别人讲 自己练习、实操。 如果可以,找教练 等等。 阅读全文
posted @ 2020-12-26 21:17 invincible~ 阅读(197) 评论(0) 推荐(0)
摘要: 在这一章中我们介绍了贯穿本书的马尔科夫决策过程。这类问题包括评定性的反馈和关联因素(在不同的情况下选择不同的行为)。MDPs是进行序列决策的典型的形式化,在这里行为不仅影响即时的reward还影响接下来的情况。所以MDPs包含延迟报酬并且需要权衡即时reward和延迟reward。 3.1智能体环境 阅读全文
posted @ 2020-12-26 16:46 invincible~ 阅读(120) 评论(0) 推荐(0)
摘要: 引用 插入空格 &nbsp 一行 &ensp 二行 &emsp 四行 插入链接 显示文本 比如 百度 插入图片 ![]() 代码引用 ```language ``` 表格 自定义目录 [事务的概念和特性?](#事务的概念和特性) 阅读全文
posted @ 2020-12-26 16:43 invincible~ 阅读(57) 评论(0) 推荐(0)
摘要: 桥接 VMnet0,一般用桥接 NAT VMnet8 Host only VMnet1 命令 ifconfig interface ifconfig lo 自我回环 测试用 eth0 ifconfig eth0 192.168.x.x 阅读全文
posted @ 2020-12-26 16:31 invincible~ 阅读(57) 评论(0) 推荐(0)
摘要: vscode基础 coder runner c c++ 设置自动保存:setting-> auto save → onFocusChange 写html 直接打开文件夹,新建html文件。 emmet补全插件 十分强大 打! 直接按enter可以自动写好模版 打h 直接补全开始 闭合标签 写c语言 阅读全文
posted @ 2020-12-26 14:13 invincible~ 阅读(119) 评论(0) 推荐(0)