Ⅶ. Policy Gradient Methods

Dictum:

Life is just a series of trying to make up your mind. -- T. Fuller

不同于近似价值函数并以此计算确定性的策略的基于价值的RL方法，基于策略的RL方法将策略的学习从概率集合\(P(a|s)\)变换成策略函数\(\pi(a|s)\)，并通过求解策略目标函数的极大值，得到最优策略\(\pi^*\)，主要用的是策略梯度方法(Policy Gradient Methods)。

策略梯度方法直接对随机策略\(\pi\)进行参数化为\(\pi(a|s,\theta)=\Pr\{A_t=a|S_t=s,\theta_t=\theta\}\)，其中\(s\in\mathcal{S}\)，\(a\in\mathcal{A}(s)\)，权重参数向量\(\theta\in\mathbb{R}^{d^\prime}(d^\prime<<|\mathcal{S}|)\)，参数化后的策略不再是一个概率集合，而是一个近似函数。

相比于基于价值的RL方法，策略梯度方法的优势如下：

基于价值的RL方法依赖于价值函数的估计；而对策略梯度方法，价值函数可以用于学习策略的参数，但没有直接的依赖关系
基于价值的RL方法为了寻找最优策略，使用了\(\epsilon\)-贪心策略以\(\epsilon\)的概率选择随机动作；而策略梯度方法可以直接近似一个确定的策略，因此，具有更好的收敛性
基于价值的RL方法更适用于离散的动作、状态空间，即使一些改进也需要将连续的动作空间离散化，但这样的映射呈指数形式，增加求最优解的难度；而策略梯度方法在高维或连续动作空间中有效
基于价值的RL方法通常只能学习最优策略是确定的，而策略梯度方法可以学习本身就具有随机性的最优策略

缺点如下：

策略梯度方法使用梯度上升，容易收敛到局部最优解
同时，对策略难以进行有效评估，因为它具有很高的方差

策略梯度定义

策略函数

策略函数是在确定在时序\(t\)的状态\(s\)下，采取任何科恩那个动作的具体概率，可以看作概率密度函数。假设策略被参数化为\(\pi(a|s,\theta)\)，要求\(\pi(a|s,\theta)\)对参数\(\theta\)的偏导存在，则策略梯度

\[\begin{aligned} \triangledown\pi(a|s,\theta) & =\pi(a|s,\theta)\frac{\triangledown \pi(a|s,\theta)}{\pi(a|s,\theta)}\\ &=\pi(a|s,\theta)\triangledown\ln \pi(a|s,\theta) \end{aligned} \tag{7.1} \]

\(\triangledown \log\pi(a|s,\theta)\)是得分函数(score function)。

Softmax Policy

针对离散且有限的动作空间，可以使用softmax策略，对每一个“状态-动作”二元组估计一个参数化的数值偏好\(h(s,a,\theta)\in\mathbb{R}\)，然后利用softmax函数对动作加权，如

\[\pi(a|s,\theta)\doteq \frac{e^{h(s,a,\theta)}}{\sum_b e^{h(s,b,\theta)}} \]

此时，每个动作的概率正比于指数权重\(\pi(a|s,\theta)\propto e^{h(s,a,\theta)}\)。若参数化的偏好值为特征\(x(s,a)\)的线性组合，则\(h(s,a,\theta)=\theta^\top x(s,a)\)，此时得分函数为

\[\triangledown\log\pi(a|s,\theta)=x(s,a)-\mathbb{E}_\pi [x(s,\cdot)] \]

Gaussian Policy

针对庞大或连续的动作空间，不能直接计算每一个动作的概率，但可以学习概率分布的统计。通常可以使用Gaussian策略，即对应的动作服从高斯分布\(a\sim\mathcal{N}(\mu,\sigma^2)\)，则策略可以表示为

\[\pi(a|s,\theta)\doteq \frac{1}{\sigma(s,\theta)\sqrt{2\pi}}\exp\bigg(-\frac{\big(a-\mu(s,\theta)\big)^2}{2\sigma(s,\theta)^2}\bigg) \]

其中，均值\(\mu:\mathcal{S}\times\mathbb{R}^{d^\prime}\to\mathcal{R}\)和方差\(\sigma:\mathcal{S}\times\mathbb{R}^{d^\prime}\to\mathcal{R}^+\)是两个参数化的函数近似器。因此，参数向量可以分为两部分\(\theta=[\theta_\mu,\theta_\sigma]^\top\)，同时特征向量也分为两部分\(x=[x_\mu,x_\sigma]\)，均值部分可以直接使用线性函数近似，而标准差部分要求为正数，可以使用线性函数的指数形式近似

\[\mu(s,\theta)\doteq\theta_\mu^\top x_\mu(s)\text{ 和 }\sigma(s,\theta)\doteq\exp\Big(\theta_\sigma^\top x_\sigma(s)\Big) \]

此时得分函数为

\[\triangledown\log\pi(a|s,\theta)=\frac{(a-\mu(s))x(s)}{\sigma^2} \]

性能度量

有了策略函数，还要定义性能度量来衡量策略的好坏。一般将智能体累积折扣奖励的期望作为目标函数，用\(J(\theta)\)表示。利用相关策略的目标函数\(J(\theta)\)的梯度上升更新\(\theta\)，从而最大化奖励的期望：

\[\theta_{t+1}=\theta_t+\alpha\triangledown\widehat{J(\theta_t)} \tag{7.2} \]

在幕式任务和连续任务这两种不同的情况下，性能度量的定义是不同的：

起始价值(start value)

针对幕式任务，将性能度量定义为该幕起始状态的价值，即

\[J_1(\theta)\doteq v_{\pi_\theta}(s_0)=\mathbb{E}_{\pi_\theta}[v_0] \]

其中，\(v_{\pi_\theta}\)是执行策略\(\pi_\theta\)的真实的价值函数。适用于能够产生完整经验轨迹的环境，即从状态\(s_0\)开始，以一定的概率分布达到终止状态时序段内，智能体获得的累积奖励。

平均价值(average value)

在连续任务中，智能体没有明确的起始状态，可以基于智能体在时序\(t\)的状态分布，针对每个可能的状态计算从\(t\)开始持续与环境交互所能获得的奖励，并按其状态的概率分布求和，即

\[J_{avgV}(\theta)\doteq\sum_{s\in\mathcal{S}}d_{\pi_\theta}(s)v_{\pi_\theta}(s) \]

其中，\(s\sim d_{\pi_\theta}(s)\)表示状态\(s\)服从根据策略\(\pi_\theta\)生成的马尔科夫链的状态分布。

每时序平均奖励(average reward per time-step)

平均价值使用时序\(t\)下状态的平均价值，而每个时序的平均奖励使用时序\(t\)的状态下所有动作的期望，即在时序\(t\)先计算出智能体所有状态的可能性，然后计算出在每一种状态下采取所有可能动作获得的即时奖励，并按其对应的概率求和，即

\[\begin{aligned} J_{avgR}(\theta)\doteq\mathbb{E}_{\pi_\theta}[r] &=\sum_{s\in\mathcal{S}}d_{\pi_\theta}(s)\sum_{a\in\mathcal{A}}\pi_\theta(a|s)r_{s,a} \\ &=\sum_s d_{\pi_\theta}(s)\sum_a\pi(a|s)\sum_{s^\prime,r}p(s^\prime,r|s,a)r \end{aligned} \]

其中，\(d_{\pi_\theta}(s)=\lim_{t\to\infty}\Pr\{s_t=s|s_0,\pi_\theta\}\)是策略\(\pi_\theta\)下状态的稳态分布，\(s_0\)独立于所有策略，\(r_{s,a}\)是状态\(s\)下执行动作\(a\)得到的即时奖励。它实际上是单步MDPs，也就是从状态\(s\sim d(s)\)开始，根据策略\(\pi\)执行动作\(a\)，此时得到了一个奖励值\(r\)，完成了一个时序后结束。

策略梯度定理

已经给出了策略函数和性能度量，但通过调整策略参数\(\theta\)来保证性能得到改善仍存在疑点，主要在于策略的性能既依赖于动作的选择，也依赖于动作选择时所处的状态分布，而策略\(\pi(a|s)\)的定义是已知状态\(s\)下动作\(a\)的概率，因此策略对状态分布的影响未知。这里就引出了策略梯度定理(policy gradient theorem)。

Policy Gradient Theroem
对任何可微策略\(\pi(a|s,\theta)\)，任意目标函数\(J(\theta)\)的梯度都可以表示为

\[\triangledown J(\theta)\propto\sum_s\mu(s)\sum_a q_\pi(s,a)\triangledown_\theta\pi(a|s,\theta) \tag{7.3} \]

在幕式情况下，比例常数为幕的平均长度；在连续情况下，比例常数为1。\(\mu(s)\)是同步策略下的状态分布。

(证明见Append)

策略梯度算法

REINFORCE：Monte Carlo Policy Gradient

REINFORCE是一种蒙特卡洛算法，一般应用于幕式任务，也需要在每个幕达到终止状态后才能进行更新。

根据策略梯度定理\((7.3)\)，REINFORCE的目标函数梯度可以写成

\[\begin{aligned} \triangledown J(\theta) &\propto\sum_s\mu(s)\sum_a\triangledown\pi(a|s,\theta)q_\pi(s,a) \\ &=\mathbb{E}_\pi \bigg[\sum_a q_\pi (S_t,a) \triangledown \pi(a|S_t,\theta)\bigg] \\ &=\mathbb{E}_\pi \bigg[\sum_a \pi(a|S_t,\theta)q_\pi(S_t,a)\frac{\triangledown \pi(a|S_t,\theta)}{\pi(a|S_t,\theta)}\bigg] \\ &(A_t\sim\pi，因此\sum_a \pi(a|S_t,\theta)q_\pi(S_t,a)可以用q_\pi(S_t,A_t)代替)\\ &=\mathbb{E}_\pi\bigg[q_\pi(S_t,A_t)\frac{\triangledown \pi(a|S_t,\theta)}{\pi(a|S_t,\theta)}\bigg]\\ &(根据q_\pi的定义，q_\pi(S_t,A_t)=\mathbb{E}_\pi[G_t|S_t,A_t]，G_t是回报值)\\ &=\mathbb{E}_\pi\bigg[G_t\frac{\triangledown \pi(A_t|S_t,\theta)}{\pi(A_t|S_t,\theta)}\bigg] \end{aligned} \]

根据式\((7.2)\)的随机梯度上升，可以得到参数的更新如下

\[\begin{aligned} \theta_{t+1} &\leftarrow \theta_t+\alpha G_t\frac{\triangledown \pi(A_t|S_t,\theta_t)}{\pi(A_t|S_t,\theta_t)} \\ &\leftarrow\theta_t+\alpha G_t\triangledown \ln \pi(A_t|S_t,\theta_t) \\ \end{aligned} \]

参数向量\(\theta\)更新的大小正比于回报\(G_t\)，使更新朝着更利于产生最大回报动作的方向；同时，它反比于策略\(\pi(A_t|S_t,\theta)\)，减少非最优动作因选择频率过大导致的性能影响。

REINFORCE with Baseline

带基线的REINFORCE算法可以看作是一种推广形式，它是在策略梯度定理\((7.3)\)上添加一个不随动作\(a\)变化的任意基线\(b(s)\)，形式如下

\[\triangledown J(\theta)\propto\sum_s\mu(s)\sum_a\big(q_\pi(s,a)-b(s)\big)\triangledown_\theta \pi(a|s,\theta) \]

基线\(b(s)\)不会影响策略的梯度，因为梯度方向的单位向量之和为0，即\(\triangledown_\theta \sum_a\pi(a|s,\theta)=\triangledown_\theta 1=0\)。通常可以将状态价值函数近似\(\hat{v}(S_t,w)\)，\(w\in\mathbb{R}^m\)作为基线，改良后的REINFORCE算法参数更新为

\[w_{t+1}\leftarrow w_t+\alpha^w \gamma^t \big(G_t-\hat{v}(S_t,w)\big)\triangledown_w \hat{v}(S_t,w) \]

\[\theta_{t+1}\leftarrow \theta_t+\alpha^\theta \gamma^t \big(G_t-\hat{v}(S_t,w)\big)\triangledown_\theta \ln \pi(A_t|S_t,\theta) \]

Append

策略梯度定理(证明)

幕式情况

\[\begin{aligned} \triangledown J(\theta) &=\triangledown v_\pi(s) \\ &=\triangledown \bigg[\sum_a \pi(a|s)q_\pi(s,a)\bigg] \\ &=\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\triangledown q_\pi(s,a)\Big] \\ &=\sum_a \Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\triangledown \sum_{s^\prime,r}p(s^\prime|s,a)(r+v_\pi(s^\prime))\Big] \\ &=\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\sum_{s^\prime}p(s^\prime|s,a)\triangledown v_\pi(s^\prime)\Big] \\ &=\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\sum_{s^\prime}p(s^\prime|s,a)\sum_{a^\prime}[\triangledown\pi(a^\prime|s^\prime)q_\pi(s^\prime,a^\prime)+\pi(a^\prime|s^\prime)\sum_{s^{\prime\prime}}p(s^{\prime\prime}|s^\prime,a^\prime)\triangledown v_\pi(s^{\prime\prime})]\Big] \\ &=\sum_{x\in\mathcal{S}}\sum_{k=0}^\infty \Pr(s\to x,k,\pi)\sum_a\triangledown\pi(a|x)q_\pi(x,a) \\ &\propto\sum_s \mu(s)\sum_a\triangledown\pi(a|s)q_\pi(s,a) \\ \end{aligned} \]

其中，\(\Pr(s\to x,k,\pi)\)表示在策略\(\pi\)下的\(k\)步内，状态\(s\)转移到状态\(x\)的概率。

连续情况

\[\begin{aligned} \triangledown v_\pi(s) &=\triangledown \Big[\sum_a \pi(a|s)q_\pi(s,a)\Big] \\ &=\sum_a \Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\triangledown q_\pi(s,a)\Big] \\ &=\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\triangledown\sum_{s^\prime,r}p(s^\prime,r|s,a)\big(r-r(\theta)+v_\pi(s^\prime)\big)\Big] \\ &=\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)[-\triangledown r(\theta)+\sum_{s^\prime}p(s^\prime|s,a)\triangledown v_\pi(s^\prime)]\Big] \\ \end{aligned} \]

由上可以得到

\[\triangledown r(\theta)=\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\sum_{s^\prime}p(s^\prime|s,a)\triangledown v_\pi(s^\prime)\Big]-\triangledown v_\pi(s) \]

目标函数的梯度为

\[\begin{aligned} \triangledown J(\theta) &=\triangledown r(\theta) \\ &=\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\sum_{s^\prime}p(s^\prime|s,a)\triangledown v_\pi(s^\prime)\Big]-\triangledown v_\pi(s) \\ &(对前一项添加状态的权重\mu(s)，\sum_s\mu(s)=1，不影响梯度) \\ &=\sum_s\mu(s)\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\sum_{s^\prime}p(s^\prime|s,a)\triangledown v_\pi(s^\prime)\Big]-\triangledown v_\pi(s) \\ &=\sum_s\mu(s)\sum_a \triangledown\pi(a|s)q_\pi(s,a)+\mu(s)\sum_a\pi(a|s)\sum_{s^\prime}p(s^\prime|s,a)\triangledown v_\pi(s^\prime)-\mu(s)\sum_a \triangledown v_\pi(s) \\ &=\sum_s\mu(s)\sum_a\triangledown\pi(a|s)q_\pi(s,a)+\sum_{s^\prime}\mu(s^\prime)\triangledown v_\pi(s^\prime)-\sum_s\mu(s)\triangledown v_\pi(s) \\ &=\sum_s\mu(s)\sum_a\triangledown \pi(a|s)q_\pi(s,a) \end{aligned} \]

References

Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction (Second Edition). 2018.
Csaba Szepesvári. Algorithms for Reinforcement Learning. 2009.
Richard S. Sutton et al. Policy Gradient Methods for Reinforcement Learning with Function Approximation. 2000.
Course: UCL Reinforcement Learning Course (by David Silver)

posted @ 2020-11-25 16:07 Hugh_Cai 阅读(322) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Cai_Blog

Nothing is easier to succeed than learning.