2022年2月17日

摘要: Q学习方法只能通过训练Qθ以满足自洽方程,间接优化智能体性能。这种学习有很多失败模式,所以它往往不太稳定。 有关Q学习方法失败的方式和原因的更多信息,请参见下面材料: 1)Tsitsiklis and van Roy的这篇经典论文: 2)Szepesvari的评论(见第4.3.2节): Q学习对具有 阅读全文
posted @ 2022-02-17 10:44 穷酸秀才大草包 阅读(1048) 评论(0) 推荐(0)

导航