会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Ruidongch
博客园
首页
新随笔
联系
订阅
管理
05 2019 档案
总结:比较SARSA、SARSA(lambda)、Q-learning、on policy and off policy
摘要:前几天面试的时候被问到RL一些基础算法的区别,回来抽空做了一些整理方便加深理解。 On policy与off policy 为了解决强化学习中探索与利用的平衡问题,可以采用两个策略训练模型,一个策略为行为策略,用于保持探索性,提供多样化的数据,不断优化另一个策略(目标策略)。 on policy的目
阅读全文
posted @
2019-05-13 13:35
Ruidongch
阅读(1952)
评论(0)
推荐(0)
公告