2022 年 2月 17 日随笔档案 - 穷酸秀才大草包

2022年2月17日

摘要： Q学习方法只能通过训练Qθ以满足自洽方程，间接优化智能体性能。这种学习有很多失败模式，所以它往往不太稳定。有关Q学习方法失败的方式和原因的更多信息，请参见下面材料： 1）Tsitsiklis and van Roy的这篇经典论文： 2）Szepesvari的评论(见第4.3.2节)： Q学习对具有阅读全文

posted @ 2022-02-17 10:44 穷酸秀才大草包阅读(1078) 评论(0) 推荐(0)

穷酸秀才大艹包

导航

公告