会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Ruidongch
博客园
首页
新随笔
联系
订阅
管理
2019年5月13日
总结:比较SARSA、SARSA(lambda)、Q-learning、on policy and off policy
摘要: 前几天面试的时候被问到RL一些基础算法的区别,回来抽空做了一些整理方便加深理解。 On policy与off policy 为了解决强化学习中探索与利用的平衡问题,可以采用两个策略训练模型,一个策略为行为策略,用于保持探索性,提供多样化的数据,不断优化另一个策略(目标策略)。 on policy的目
阅读全文
posted @ 2019-05-13 13:35 Ruidongch
阅读(1946)
评论(0)
推荐(0)
公告