Reinforcement Learning 笔记(4)

Sarsa Lambda

此处引出了单步更新和回合更新的概念。

单步更新,每次只学习上一步的信息,即更新的Q只和前一步的Q和下一步的Q有关,与更早的行动无关

而回合更新则是学习一定数量的行动信息,不仅与前一步有关。lambda则是描述步数的参数。0代表默认的sarsa

即只学习前一步。

lambda=1则是回合更新每一步都有相同权重

而一般来说,lambda是一个0-1的数,即前后的行动对学习的影响不同,越靠近学习的位置的行动,则权值较高,较远的(较早的)行动则权值较低。

 

 

 

 

 

 在实际的实现中,采用了名为eligibility traces的方式。

它的过程是这样的:

每当走到某个state,在某个表中(e_table)对该state对应的权值进行增加,而每走完一步,对整个e_table中的所有权重进行衰减(减小),以此来实现sarsa-lambda的效果。q_table的更新则是通过整个e_table来计算

posted @ 2020-03-10 02:21  Aitashi  阅读(175)  评论(1编辑  收藏  举报