摘要:
在这一章中我们从一种统一的视角结合了强化学习中有模型的方法和无模型的方法。基于模型的方法的主要部分是规划,无模型的方法主要依赖学习。这两类方法有共同的基础体现在值函数。 都依靠值函数的计算 再者这些方法都是基于未来状态然后靠反向传播来更新当前值函数。 8.1 模型和规划 agent可以根据环境的模型 阅读全文
posted @ 2020-12-27 21:45
invincible~
阅读(153)
评论(0)
推荐(0)
摘要:
7.1 n步TD预测 一步TD方法是等一个时间步数后根据下一个状态的估计值自举计算,而蒙特卡洛方法是等所有的时间步数完成后进行计算,n步自举是中间的任何数,可以是二步自举,也可以是三步自举···下图展示了三者之间的区别。 这种方法仍然是TD方法,是因为仍然是根据后来的估计值的差别来更行之前的估计值, 阅读全文
posted @ 2020-12-27 21:10
invincible~
阅读(190)
评论(0)
推荐(0)
摘要:
If one had to identify one idea as central and novel to reinforcement learning, it would undoubtedly be temporal-difference (TD) learning. TD方法是蒙特卡洛方法 阅读全文
posted @ 2020-12-27 20:29
invincible~
阅读(182)
评论(0)
推荐(0)

浙公网安备 33010602011771号