Lecture 4: Model-Free Prediction

1.Monte-Carlo Reinforcement Learning

a)MC方法直接从经历中的episodes中学习

b)MC方法是无模型的，

c)从完整的episodes中学习：而不是走一步学学一步（bootstrapping）

d)注意：只能将MC方法应用到episodic MDPs，而且所有的episodes必须终止。

2.Temporal-Di↵erence Learning

a）TD方法直接从经历中的episodes中学习

b)MC方法是无模型的

c) 从不完整的episodes中学习，by bootstrapping

d) TD从一个猜测中更新猜测

3.TD能在获知最终结果前学习

a) TD能在每步中在线学习

b) MC必须等到一个episode结束才能获知最终结果

TD能够在没有最终输出的过程中学习

a) TD能够从不完整的雪猎中学习

b) MC只能从完整的序列中学习

c) TD 在连续的环境中工作

d)MC只能在有终结序列的环境中工作

4. 是的无偏估计，

5.TD利用了Markov属性，通常在Markov环境中更为有效

MC没有利用Markov属性，通常在非Markov环境中更加有效

6. TD( λ ) 与MC都只能用于完整的episodes

posted @ 2017-04-14 21:37 陈煜弘阅读(266) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部