贝尔曼期望方程

\[\begin{align*} V^{\pi}(s) &= \mathbb{E}_{\pi}[R_{t}+\gamma V^{\pi}(S_{t + 1})|S_{t}=s]\\ &=\sum_{a\in A}\pi(a|s)\left(r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)V^{\pi}(s')\right)\\ Q^{\pi}(s,a) &= \mathbb{E}_{\pi}[R_{t}+\gamma Q^{\pi}(S_{t + 1},A_{t + 1})|S_{t}=s,A_{t}=a]\\ &=r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)\sum_{a'\in A}\pi(a'|s')Q^{\pi}(s',a') \end{align*} \]

以下分别说明它们的推导过程:

对于状态价值函数\(V^{\pi}(s)\)

  1. 首先,条件期望 \(\mathbb{E}_{\pi}[R_{t}+\gamma V^{\pi}(S_{t + 1})|S_{t}=s]\) 表示在策略\(\pi\)下,从状态 \(s\) 出发的期望累计折扣回报。
  2. 根据期望的定义和策略\(\pi\)的性质,在状态 \(s\) 时,动作的选择由策略 \(\pi(a|s)\) 决定 ,其中 \(\pi(a|s)\) 是在状态 \(s\) 采取动作 \(a\) 的概率。所以先对所有可能的动作 \(a\in A\)\(A\) 是动作空间)进行求和。即得到 \(\sum_{a\in A}\pi(a|s)\) 这部分。
  3. 当采取动作 \(a\) 后,会获得即时奖励 \(r(s,a)\) ,同时有一定概率转移到下一个状态 \(s'\)。转移到状态 \(s'\) 的概率是 \(p(s'|s,a)\)\(S\) 是状态空间。
  4. 对于每个可能的下一个状态 \(s'\),其价值为 \(V^{\pi}(s')\) ,并且要乘上折扣因子 \(\gamma\) 。因此对所有可能的下一个状态 \(s'\in S\) 进行求和,得到 \(\sum_{s'\in S}p(s'|s,a)V^{\pi}(s')\)
  5. 综合起来,就得到了 \(V^{\pi}(s)\) 的展开式 \(\sum_{a\in A}\pi(a|s)(r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)V^{\pi}(s'))\)

对于动作价值函数\(Q^{\pi}(s,a)\)

  1. 初始的条件期望 \(\mathbb{E}_{\pi}[R_{t}+\gamma Q^{\pi}(S_{t + 1},A_{t + 1})|S_{t}=s,A_{t}=a]\) 表示在策略 \(\pi\) 下,从状态 \(s\) 执行动作 \(a\) 开始的期望累计折扣回报。
  2. 当在状态 \(s\) 执行动作 \(a\) 后,会立即获得即时奖励 \(r(s,a)\) ,这是公式中的第一项。
  3. 执行动作 \(a\) 后,会以概率 \(p(s'|s,a)\) 转移到下一个状态 \(s'\) ,所以先对所有可能的下一个状态 \(s'\in S\) 进行求和,得到 \(\sum_{s'\in S}p(s'|s,a)\)
  4. 到达新状态 \(s'\) 后,根据策略 \(\pi\) ,会以概率 \(\pi(a'|s')\) 选择新的动作 \(a'\)\(A\) 是动作空间,所以再对所有可能的新动作 \(a'\in A\) 进行求和,即 \(\sum_{a'\in A}\pi(a'|s')\)
  5. 而在新状态 \(s'\) 执行新动作 \(a'\) 的动作价值是 \(Q^{\pi}(s',a')\) ,并且要乘上折扣因子 \(\gamma\)
  6. 综合起来,就推导出了 \(Q^{\pi}(s,a)\) 的展开式 \(r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)\sum_{a'\in A}\pi(a'|s')Q^{\pi}(s',a')\)
posted @ 2025-03-19 20:03  icuic  阅读(72)  评论(0)    收藏  举报