随笔档案「2017年7月」 - 数据小虾米

07 2017 档案

增强学习 | Q-Learning

摘要：“价值不是由一次成功决定的，而是在长期的进取中体现” 上文介绍了描述能力更强的多臂赌博机模型，即通过多台机器的方式对环境变量建模，选择动作策略时考虑时序累积奖赏的影响。虽然多臂赌博机模型中引入了价值的概念，但方法在建模过程中本质上是以策略为优化目标，因此又常被归为基于策略的增强学习方法。此外，增强阅读全文

posted @ 2017-07-07 22:32 数据小虾米阅读(1517) 评论(0) 推荐(0)

数据小虾米

07 2017 档案

增强学习 | Q-Learning

公告

导航