会员
周边
新闻
博问
融资
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
imagef
博客园
首页
新随笔
联系
订阅
管理
2017年8月26日
增量式强化学习
摘要: 线性逼近: 相比较于非线性逼近,线性逼近的好处是只有一个最优值,因此可以收敛到全局最优。其中为状态s处的特征函数,或者称为基函数。 常用的基函数的类型为: 增量式方法参数更新过程随机性比较大,尽管计算简单,但样本数据的利用效率并不高。而批的方法,尽管计算复杂,但计算效率高。 批处理方法: 深度强化学习: Q-learning方法是异策略时序差分方法。其伪代码为: 离策略...
阅读全文
posted @ 2017-08-26 12:22 imagef
阅读(2095)
评论(0)
推荐(0)
编辑
公告