摘要:
在本章中大家将接触一些超出本书范围的话题,但是我们认为这些话题对于强化学习的未来非常重要。很多话题会超出我们所熟知的知识范围,并且有些会把我们带出马尔可夫决策过程(MDP)框架。 17.1 广义价值函数和辅助任务 不管在这种类似于价值函数的预测过程中,我们累加的是什么信号,我们都称其为这种预测的累积 阅读全文
posted @ 2020-08-16 22:42
穷酸秀才大草包
阅读(377)
评论(0)
推荐(0)

浙公网安备 33010602011771号