【强化学习的数学原理】课程笔记（四）——值迭代和策略迭代

1. 值迭代 Value Iteration

$\begin{aligned} v_{k+1} = f(v_k) =\max\limits_{\pi}(r_{\pi}+\gamma P_{\pi}v_{k})\quad k=1,2,3,\cdots \end{aligned}$

算法可拆分为两步（矩阵向量形式适合做理论分析，元素形式适合实现，因此，以下先给出matrix-vector form，然后给出 element-wise form 说明）：

step 1: policy update
$\pi_{k+1} = \max\limits_{\pi}(r_\pi + \gamma P_\pi v)$
where $v_k$ is given.

Element-wise Form:
$\pi_{k+1} = \arg \max\limits_{\pi} \sum\limits_{a}\pi(a|s) \underbrace{\left( \sum\limits_{r}p(r|s,a)r+\gamma \sum\limits_{s'}p(s'|s, a)v_{k}(s')\right)}_{q_k(s,a)},\quad s \in S$

$\pi_{k+1}(a|s) = \begin{cases} 1 & a=a^*_{k}(s)\\ 0 & a \neq a^*_{k}(s) \end{cases}$

where $a^*_{k}(s)=\arg\max\limits_{a}q_{k}(a, s)$ , $\pi_{k+1}$ 被称为贪婪策略，选择最大的q-value.
step 2: value update
$v_{k+1} =r_{\pi_{k+1}} + \gamma P_{\pi_{k+1}} v_k$
Element-wise Form:
$v_{k+1}(s) =\sum\limits_{a}\pi(a|s) \left( \sum\limits_{r}p(r|s,a)r+\gamma \sum\limits_{s'}p(s'|s, a)v_{k}(s')\right)=\max\limits_{a}q_k(a,s)$
说明： $v_k$ 不是 state value, 不满足 Bellman equation.

例子：

2. 策略迭代 Policy Iteration

算法描述：给定一个随机策略 $\pi_0$

step 1: policy evaluation(PE)

计算 $\pi_k$ 的 state value(采用迭代方式，见Bellman Equation):
$v_{\pi_k} = r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}$
step2: policy improvement(PI)
$\pi_{k+1} = \arg \max\limits_{\pi}(r_\pi + \gamma P_\pi v_{\pi_k})$

3. 截断策略迭代 Truncated Policy Iteration

3.1 Policy Interation and Value Interation

Policy Iteration: start from $\pi_0$	Value Iteration: start from $v_0$
PE: $v_{\pi_k} = r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}$	PU: $\pi_{k+1} = \max\limits_{\pi}(r_\pi + \gamma P_\pi v)$
PI: $\pi_{k+1} = \arg \max\limits_{\pi}(r_\pi + \gamma P_\pi v_{\pi_k})$	VU: $v_{k+1} =r_{\pi_{k+1}} + \gamma P_{\pi_{k+1}} v_k$

3.2 Truncated Policy Iteration

求解 Policy Iteration 的 PE 过程中，计算 $v_{\pi_k}$ 只计算 $j$ 步，当 $j = 1$ 时，即为 Value Iteration， $\rightarrow \infty$ 时为 Policy Iteration，其他值( $v_{\pi_k}$ 未收敛，此时写为 $v_k$ )时则为 Truncated Policy Iteration。即

Policy Iteration 和 Value Iteration 为 Truncated Policy Iteration 的特殊情况。算法如下：

posted @ 2023-03-14 17:11 iailab 阅读(134) 评论(0) 收藏举报来源

刷新页面返回顶部

初心小言