贝尔曼期望方程
\[\begin{align*}
V^{\pi}(s) &= \mathbb{E}_{\pi}[R_{t}+\gamma V^{\pi}(S_{t + 1})|S_{t}=s]\\
&=\sum_{a\in A}\pi(a|s)\left(r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)V^{\pi}(s')\right)\\
Q^{\pi}(s,a) &= \mathbb{E}_{\pi}[R_{t}+\gamma Q^{\pi}(S_{t + 1},A_{t + 1})|S_{t}=s,A_{t}=a]\\
&=r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)\sum_{a'\in A}\pi(a'|s')Q^{\pi}(s',a')
\end{align*}
\]
以下分别说明它们的推导过程:
对于状态价值函数\(V^{\pi}(s)\)
- 首先,条件期望 \(\mathbb{E}_{\pi}[R_{t}+\gamma V^{\pi}(S_{t + 1})|S_{t}=s]\) 表示在策略\(\pi\)下,从状态 \(s\) 出发的期望累计折扣回报。
- 根据期望的定义和策略\(\pi\)的性质,在状态 \(s\) 时,动作的选择由策略 \(\pi(a|s)\) 决定 ,其中 \(\pi(a|s)\) 是在状态 \(s\) 采取动作 \(a\) 的概率。所以先对所有可能的动作 \(a\in A\)(\(A\) 是动作空间)进行求和。即得到 \(\sum_{a\in A}\pi(a|s)\) 这部分。
- 当采取动作 \(a\) 后,会获得即时奖励 \(r(s,a)\) ,同时有一定概率转移到下一个状态 \(s'\)。转移到状态 \(s'\) 的概率是 \(p(s'|s,a)\) ,\(S\) 是状态空间。
- 对于每个可能的下一个状态 \(s'\),其价值为 \(V^{\pi}(s')\) ,并且要乘上折扣因子 \(\gamma\) 。因此对所有可能的下一个状态 \(s'\in S\) 进行求和,得到 \(\sum_{s'\in S}p(s'|s,a)V^{\pi}(s')\) 。
- 综合起来,就得到了 \(V^{\pi}(s)\) 的展开式 \(\sum_{a\in A}\pi(a|s)(r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)V^{\pi}(s'))\) 。
对于动作价值函数\(Q^{\pi}(s,a)\)
- 初始的条件期望 \(\mathbb{E}_{\pi}[R_{t}+\gamma Q^{\pi}(S_{t + 1},A_{t + 1})|S_{t}=s,A_{t}=a]\) 表示在策略 \(\pi\) 下,从状态 \(s\) 执行动作 \(a\) 开始的期望累计折扣回报。
- 当在状态 \(s\) 执行动作 \(a\) 后,会立即获得即时奖励 \(r(s,a)\) ,这是公式中的第一项。
- 执行动作 \(a\) 后,会以概率 \(p(s'|s,a)\) 转移到下一个状态 \(s'\) ,所以先对所有可能的下一个状态 \(s'\in S\) 进行求和,得到 \(\sum_{s'\in S}p(s'|s,a)\) 。
- 到达新状态 \(s'\) 后,根据策略 \(\pi\) ,会以概率 \(\pi(a'|s')\) 选择新的动作 \(a'\) ,\(A\) 是动作空间,所以再对所有可能的新动作 \(a'\in A\) 进行求和,即 \(\sum_{a'\in A}\pi(a'|s')\) 。
- 而在新状态 \(s'\) 执行新动作 \(a'\) 的动作价值是 \(Q^{\pi}(s',a')\) ,并且要乘上折扣因子 \(\gamma\) 。
- 综合起来,就推导出了 \(Q^{\pi}(s,a)\) 的展开式 \(r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)\sum_{a'\in A}\pi(a'|s')Q^{\pi}(s',a')\) 。

浙公网安备 33010602011771号