第七章 n-steps Bootstrapping 读书笔记

7.1 n步TD预测

一步TD方法是等一个时间步数后根据下一个状态的估计值自举计算，而蒙特卡洛方法是等所有的时间步数完成后进行计算，n步自举是中间的任何数，可以是二步自举，也可以是三步自举···下图展示了三者之间的区别。

这种方法仍然是TD方法，是因为仍然是根据后来的估计值的差别来更行之前的估计值，只不过在n步之后才进行更新，所以叫n步TD方法。

在这一章中我们在时序差分学习和蒙特卡洛方法中拓宽了TD方法。实验证明在中间步数的自举方法是十分重要的，要比两种极端情况下要表现得好。

我们在这一章的重点是n步方法，n步方法是向前多看了n个回报，状态和行为。N步自举的几个缺点：更新有n步的延迟，计算和内存要求比较高。在第12章用资格痕迹方法可以花费较少的计算和内存。

虽然n步自举比用资格痕迹花费大，但是它们的概念更加简单，我们也利用这个优势在n步的情况下把离线学习用两种方式来实现，一是通过重要性采样，而是基于反向传播树的更新。

posted @ 2020-12-27 21:10 invincible~ 阅读(206) 评论(0) 收藏举报

刷新页面返回顶部