摘要:
“价值不是由一次成功决定的,而是在长期的进取中体现” 上文介绍了描述能力更强的多臂赌博机模型,即通过多台机器的方式对环境变量建模,选择动作策略时考虑时序累积奖赏的影响。虽然多臂赌博机模型中引入了价值的概念,但方法在建模过程中本质上是以策略为优化目标,因此又常被归为基于策略的增强学习方法。 此外,增强 阅读全文
posted @ 2017-07-07 22:32
数据小虾米
阅读(1501)
评论(0)
推荐(0)
2017年10月8日
2017年8月4日
2017年4月10日
2017年1月21日
2017年1月11日