05 2019 档案

总结:比较SARSA、SARSA(lambda)、Q-learning、on policy and off policy

摘要：前几天面试的时候被问到RL一些基础算法的区别，回来抽空做了一些整理方便加深理解。 On policy与off policy 为了解决强化学习中探索与利用的平衡问题，可以采用两个策略训练模型，一个策略为行为策略，用于保持探索性，提供多样化的数据，不断优化另一个策略(目标策略)。 on policy的目阅读全文

posted @ 2019-05-13 13:35 Ruidongch 阅读(1952) 评论(0) 推荐(0)

Ruidongch

05 2019 档案

公告