贝尔曼期望方程

\[\begin{align*} V^{\pi}(s) &= \mathbb{E}_{\pi}[R_{t}+\gamma V^{\pi}(S_{t + 1})|S_{t}=s]\\ &=\sum_{a\in A}\pi(a|s)\left(r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)V^{\pi}(s')\right)\\ Q^{\pi}(s,a) &= \mathbb{E}_{\pi}[R_{t}+\gamma Q^{\pi}(S_{t + 1},A_{t + 1})|S_{t}=s,A_{t}=a]\\ &=r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)\sum_{a'\in A}\pi(a'|s')Q^{\pi}(s',a') \end{align*} \]

以下分别说明它们的推导过程：

对于状态价值函数\(V^{\pi}(s)\)

首先，条件期望 \(\mathbb{E}_{\pi}[R_{t}+\gamma V^{\pi}(S_{t + 1})|S_{t}=s]\) 表示在策略\(\pi\)下，从状态 \(s\) 出发的期望累计折扣回报。
根据期望的定义和策略\(\pi\)的性质，在状态 \(s\) 时，动作的选择由策略 \(\pi(a|s)\) 决定，其中 \(\pi(a|s)\) 是在状态 \(s\) 采取动作 \(a\) 的概率。所以先对所有可能的动作 \(a\in A\)（\(A\) 是动作空间）进行求和。即得到 \(\sum_{a\in A}\pi(a|s)\) 这部分。
当采取动作 \(a\) 后，会获得即时奖励 \(r(s,a)\) ，同时有一定概率转移到下一个状态 \(s'\)。转移到状态 \(s'\) 的概率是 \(p(s'|s,a)\) ，\(S\) 是状态空间。
对于每个可能的下一个状态 \(s'\)，其价值为 \(V^{\pi}(s')\) ，并且要乘上折扣因子 \(\gamma\) 。因此对所有可能的下一个状态 \(s'\in S\) 进行求和，得到 \(\sum_{s'\in S}p(s'|s,a)V^{\pi}(s')\) 。
综合起来，就得到了 \(V^{\pi}(s)\) 的展开式 \(\sum_{a\in A}\pi(a|s)(r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)V^{\pi}(s'))\) 。

对于动作价值函数\(Q^{\pi}(s,a)\)

初始的条件期望 \(\mathbb{E}_{\pi}[R_{t}+\gamma Q^{\pi}(S_{t + 1},A_{t + 1})|S_{t}=s,A_{t}=a]\) 表示在策略 \(\pi\) 下，从状态 \(s\) 执行动作 \(a\) 开始的期望累计折扣回报。
当在状态 \(s\) 执行动作 \(a\) 后，会立即获得即时奖励 \(r(s,a)\) ，这是公式中的第一项。
执行动作 \(a\) 后，会以概率 \(p(s'|s,a)\) 转移到下一个状态 \(s'\) ，所以先对所有可能的下一个状态 \(s'\in S\) 进行求和，得到 \(\sum_{s'\in S}p(s'|s,a)\) 。
到达新状态 \(s'\) 后，根据策略 \(\pi\) ，会以概率 \(\pi(a'|s')\) 选择新的动作 \(a'\) ，\(A\) 是动作空间，所以再对所有可能的新动作 \(a'\in A\) 进行求和，即 \(\sum_{a'\in A}\pi(a'|s')\) 。
而在新状态 \(s'\) 执行新动作 \(a'\) 的动作价值是 \(Q^{\pi}(s',a')\) ，并且要乘上折扣因子 \(\gamma\) 。
综合起来，就推导出了 \(Q^{\pi}(s,a)\) 的展开式 \(r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)\sum_{a'\in A}\pi(a'|s')Q^{\pi}(s',a')\) 。

posted @ 2025-03-19 20:03 icuic 阅读(72) 评论(0) 收藏举报

刷新页面返回顶部

icuic

贝尔曼期望方程

对于状态价值函数\(V^{\pi}(s)\)

对于动作价值函数\(Q^{\pi}(s,a)\)

公告