强化学习（三）—— 时序差分法（SARSA和Q-Learning）

1、时序差分法基本概念

　　虽然蒙特卡洛方法可以在不知道状态转移概率矩阵的前提下，灵活地求解强化学习问题，但是蒙特卡洛方法需要所有的采样序列都是完整的状态序列。如果我们没有完整的状态序列就无法用蒙特卡洛方法求解。此外蒙特卡洛方法的高方差依然存在。

　　时序差分法简称为TD法。TD法是一种结合蒙特卡洛法和动态规划法的方法。从算法的结构来看，TD法和蒙特卡洛法类似，都是“无模型学习” 的方法，也同样通过采样模拟交互序列的方法进行求解。

　　时序差分法和蒙特卡洛方法的区别主要有：

　　1）蒙特卡洛方法要等到最后结果才能学习，而时序差分法可以在任一阶段进行学习，具有更快速更灵活的更新状态进行估值。

　　2）时序差分法是基于即时奖励和下一状态的预估价值来替代当前状态在状态序列结束时可能得到的回报，是当前状态价值的有偏估计。而蒙特卡洛法则使用实际的收获来更新状态价值，是某一状态价值的无偏估计（注：其实这里的本质上是是否求期望的问题，蒙特卡洛通过采样多条序列来求期望，可以代替总体样本的无偏估计，但是因为序列的多样性导致方差较大，而时序差分法是直接预估下一状态的值来更新当前状态的值函数，这种预估本身就和真实值存在一定的偏差，但也因为只用到了下一状态的值，因此随机性较小，方差相对来说更小）。

　　3）时序差分法的方差较蒙特卡洛方法更小，且对初始值敏感，但比蒙特卡洛方法更高效。

　　时序差分法不止是有单步序列，还可以扩展到N步，当N足够大，甚至趋于无穷时，就等价于蒙特卡洛方法了。

　　时序差分法可以分为在线策略（on-policy，也可称为同策略）和离线策略（off-policy，也可称为异策略）。目前在线策略最常见的算法是SARSA算法，离线策略最常见的是Q-Learning算法。

　　在线策略和离线策略主要的区别在于：

　　1）在线策略中当前状态下的动作选择和下一状态下的动作选择一般都是 $\epsilon - greedy$ 法（注：下一状态的动作选择决定了下一状态的Q值，而下一状态的Q值是TD目标中的一部分）；

　　2）离线策略中当前状态的动作选择用$\epsilon - greedy$ 法，而下一状态的动作选择用贪婪法。

2、SARSA算法

　　SARSA算法从名字上看起来有些奇怪，实际上它是由五个关键因子组成的：

　　S：当前状态

　　A：当前行动

　　R：模拟得到的奖励

　　S：模拟进入的下一个状态

　　A：模拟中采取的下一个动作

　　SARSA算法中只涉及到上面五个变量。算法表达式如下：

　　　　$q(S,A) = q(S,A) + \alpha(R+\gamma q(S',A') - q(S,A))$

　　从上式中可以看到价值函数的更新之和当前奖励 $R$ 和下一状态的价值函数 $q(S',A')$ 有关。

　　SARSA算法的具体流程如下：

　　1）随机初始化所有的状态和动作对应的价值函数 $q$ ，对于终止状态的 $q$ 值初始化为0。

　　2）开始迭代，初始化 $S$ 为当前状态序列的第一个状态，设置 $A$ 为 $\epsilon$ - 贪婪法在当前状态 $S$ 选择的动作。

　　3）在状态 $S$ 下执行当前动作 $A$ ，得到新状态 $S'$ 和奖励 $R$。

　　4）用 $\epsilon$ - 贪婪法在状态 $S'$ 选择新的动作 $A'$。

　　5）更新价值函数 $q(S,A)$：

　　　　$q(S,A) = q(S,A) + \alpha {R+\gamma q(S',A') - q(S,A)}$

　　6）一直迭代直至所有的$q(S, A)$收敛，在这里步长 $\alpha$ 一般需要随着迭代的进行逐渐变小，这样才能保证动作价值函数收敛。

　　SARSA算法相比蒙特卡洛算法并不会更好，虽然方差降低了，但是偏差高。简单来说，SARSA算法和蒙特卡洛法代表了两个极端：一个为了追求极小的方差而使得偏差大；另一个为了缩小偏差而导致方差大。

3、Q-Learning算法

　　Q-Learning算法大体上和SARSA算法相同，唯一不同的就是在进行价值函数更新时，SARSA在状态 $S'$ 时采用 $\epsilon$ - 贪婪法选择 $ A'$ ，而Q-Learning 算法在状态 $S'$ 时直接采用常见的贪婪法选择 $A'$ ，也就是选择是的动作价值函数 $q(S',A') $最大的动作。

　　Q-Learning 算法的公式如下：

　　　　$q(S,A) = q(S,A) + \alpha(R+\gamma \max_a q(S',A') - q(S,A))$

　　Q-Learning 算法的具体流程如下：

　　1）随机初始化所有的状态和动作对应的价值函数 $q$ ，对于终止状态的 $q$ 值初始化为0。

　　2）开始迭代，初始化 $S$ 为当前状态序列的第一个状态，设置 $A$ 为 $\epsilon$ - 贪婪法在当前状态 $S$ 选择的动作。

　　3）在状态 $S$ 下执行当前动作 $A$ ，得到新状态 $S'$ 和奖励 $R$。

　　4）用常见的贪婪法在状态 $S'$ 选择新的动作 $A'$。

　　5）更新价值函数 $q(S,A)$：

　　　　$q(S,A) = q(S,A) + \alpha(R+\gamma q(S',A') - q(S,A))$

　　6）当价值函数更新后，新的状态为 $S'$ ，之前基于常见的贪婪法选择的 $A'$ 要重新基于 $\epsilon$ - 贪婪法去选择（也就是说价值最大的动作只是在更新价值函数时使用，不会真正执行，最后真正执行的动作还是要基于 $\epsilon$ - 贪婪法）。

　　7）一直迭代直至所有的$q(S, A)$收敛，在这里步长 $\alpha$ 一般需要随着迭代的进行逐渐变小，这样才能保证动作价值函数收敛。

　　在时序差分的方法中，我们把TD目标看作是最优策略（TD目标是$R_t + \gamma V(S_{t+1})$，事实上随着策略的更新，TD目标一直是变化的）。Q-Learning直接学习的是最优策略，而SARSA在学习最优策略的同时还在做探索。这导致我们在学习最优策略的时候，如果用SARSA，为了保证收敛，需要制定一个策略，

使$\epsilon - greedy$的 $ϵ -$

$ϵ -$

posted @ 2018-11-15 17:03 微笑sun 阅读(4503) 评论(0) 收藏举报

刷新页面返回顶部

微笑sun

强化学习（三）—— 时序差分法（SARSA和Q-Learning）

公告