公告

Q-learning和Sarsa的区别

Q-learning是off-policy，而Sarsa是on-policy学习。

Q-learning在更新Q table时，它只会需要Q值最大，但是不一定会选择使这个Q值最大的动作，因为选择哪个动作是由其他的策略决定的，但是Sarsa在更新Q table时，不一定是Q最大的那个，而且接下来会选择此Q对应的action。Q-learning属于勇敢型，无论前方的路上有什么危险，它都会直接走过去，而Sarsa比较保守，一般只是会远远的躲过危险。

posted on 2019-08-14 16:56 你好啊渔夫阅读(2384) 评论(0) 收藏举报

刷新页面返回顶部