2020年8月16日

摘要: 在本章中大家将接触一些超出本书范围的话题,但是我们认为这些话题对于强化学习的未来非常重要。很多话题会超出我们所熟知的知识范围,并且有些会把我们带出马尔可夫决策过程(MDP)框架。 17.1 广义价值函数和辅助任务 不管在这种类似于价值函数的预测过程中,我们累加的是什么信号,我们都称其为这种预测的累积 阅读全文
posted @ 2020-08-16 22:42 穷酸秀才大草包 阅读(377) 评论(0) 推荐(0)

导航