增强学习笔记第二章多臂赌博机问题

2.1 k臂赌博机问题

定义action value为期望奖励：

通常用平均值来估算：

2.2 action value方法

贪心法是一直估算值最大的action

$\epsilon$贪心是指以$\epsilon$的概率随机选择一个action。对于方差较大的问题来说，选择较大的$\epsilon$效果较好。

2.3 增量实现

2.4 非平稳问题

对非平稳问题使用一个不变的常数来迭代。

使用常数作为step-size，最终值不会收敛。收敛的条件是：

2.5 乐观初始值

采用乐观初始值，能鼓励exploration，使得所有的action被使用更多次。在后期会表现更好

2.6 UCB 动作选择

可以看到，时间越长，增益越少，选择次数越少，增益越多

2.7 梯度赌博机算法

之前都是使用action value来确定使用哪个action。现在我们绕过action value，直接定义一个偏好$H(a)$，然后通过softmax函数来确定$\pi$

迭代过程如下：

这个梯度算法类似于机器学习中的梯度下降。梯度下降是通过调节参数来使得loss最小，这里是通过调节h来使得$E[R_t]$最大

对比梯度下降的算法，那么更新算法就是

而

通过推导最后可得出上述迭代过程

posted on 2017-10-03 12:56 米老虎M 阅读(2378) 评论(0) 收藏举报

刷新页面返回顶部

米老虎M