摘要:
Q学习方法只能通过训练Qθ以满足自洽方程,间接优化智能体性能。这种学习有很多失败模式,所以它往往不太稳定。 有关Q学习方法失败的方式和原因的更多信息,请参见下面材料: 1)Tsitsiklis and van Roy的这篇经典论文: 2)Szepesvari的评论(见第4.3.2节): Q学习对具有 阅读全文
posted @ 2022-02-17 10:44
穷酸秀才大草包
阅读(1048)
评论(0)
推荐(0)

浙公网安备 33010602011771号