增强学习 | 多臂赌博机模型进阶
摘要:“模型是一个框架,用来描述分析者感兴趣的研究对象” 上文【增强学习 | 多臂赌博机模型】介绍了基本的多臂赌博机模型,即单步动作会根据反馈直接作出决策,因此多臂赌博机的目标是学习策略函数,以产生最优的执行动作。介绍了两种学习最优策略的方法,一是使用平均累积函数,二是使用神经网络拟合。相比下,神经网络具
阅读全文
posted @ 2017-06-30 22:41
posted @ 2017-06-30 22:41
posted @ 2017-06-24 09:11
posted @ 2017-06-10 18:34