2021 年 2月 1 日随笔档案 - 穷酸秀才大草包

2021年2月1日

摘要：在这一章中，我们将正式介绍有限马尔可夫决策过程(有限MDP)，这也是本书后面要试图解决的问题。这个问题既涉及"评估反馈"(如前面介绍的赌博机问题)，又涉及"发散联想"，即在不同情境下选择不同的动作。MDP是序列决策的经典形式化表达，其动作不仅影响当前的即时收益，还影响后续的情况(又称状态)以及未来的阅读全文

posted @ 2021-02-01 21:22 穷酸秀才大草包阅读(313) 评论(0) 推荐(0)

强化学习第2版第12章笔记——资格迹

摘要：资格迹机制的核心是一个短时记忆向量，资格迹zt ∈ Rd，以及与之相对的长时权重向量wt ∈ Rd。这个方向核心的思想是，当参数wt的一个分量参与计算并产生一个估计值时，对应的zt的分量会骤然升高，然后逐渐衰减。在迹归零前，如果发现了非零的时序差分误差，那么相应的wt的分量就可以学习。迹衰减参数λ 阅读全文

posted @ 2021-02-01 15:56 穷酸秀才大草包阅读(1105) 评论(0) 推荐(0)

穷酸秀才大艹包

导航

公告