增强学习笔记 第二章 多臂赌博机问题

2.1 k臂赌博机问题

定义action value为期望奖励:

通常用平均值来估算:

2.2 action value方法

贪心法是一直估算值最大的action

$\epsilon$贪心是指以$\epsilon$的概率随机选择一个action。对于方差较大的问题来说,选择较大的$\epsilon$效果较好。

2.3 增量实现

2.4 非平稳问题

对非平稳问题使用一个不变的常数来迭代。

使用常数作为step-size,最终值不会收敛。收敛的条件是:

2.5 乐观初始值

采用乐观初始值,能鼓励exploration,使得所有的action被使用更多次。在后期会表现更好

 

2.6 UCB 动作选择

可以看到,时间越长,增益越少,选择次数越少,增益越多

 2.7 梯度赌博机算法

之前都是使用action value来确定使用哪个action。现在我们绕过action value,直接定义一个偏好$H(a)$,然后通过softmax函数来确定$\pi$

 

迭代过程如下:

这个梯度算法类似于机器学习中的梯度下降。梯度下降是通过调节参数来使得loss最小,这里是通过调节h来使得$E[R_t]$最大

对比梯度下降的算法,那么更新算法就是

通过推导最后可得出上述迭代过程

 

posted on 2017-10-03 12:56  米老虎M  阅读(2334)  评论(0编辑  收藏  举报

导航