imagef

2017年8月26日

摘要：线性逼近：相比较于非线性逼近，线性逼近的好处是只有一个最优值，因此可以收敛到全局最优。其中为状态s处的特征函数，或者称为基函数。常用的基函数的类型为：增量式方法参数更新过程随机性比较大，尽管计算简单，但样本数据的利用效率并不高。而批的方法，尽管计算复杂，但计算效率高。批处理方法：深度强化学习： Q-learning方法是异策略时序差分方法。其伪代码为：离策略... 阅读全文

posted @ 2017-08-26 12:22 imagef 阅读(2095) 评论(0) 推荐(0) 编辑

公告