强化学习中的重要概念

Action Space（行为空间）

定义：在所在环境中所有有效的行为的集合叫行为空间。

一些环境是有离散的行为，对于agent来说是有限的行为，如Atari游戏、Alpha Go。

其他的环境是有连续的行为，如在真实世界的机器人的控制角度等。

Policy（策略）

定义：策略是一种被agent使用去决定采取什么行为的规则。

若该policy是确定性的，通常用μ记为： $a_t = \mu(s_t),$

若该policy是随机性的，通常用 $\pi$ 记为： $a_t \sim \pi(\cdot | s_t).$

Trajectories（轨迹）/episodes /rollouts

一个轨迹 $\tau$ 是真实世界中一系列的状态行为： $\tau = (s_0, a_0, s_1, a_1, ...).$

状态转移可以是确定性的： $s_{t+1} = f(s_t, a_t)$

状态转移可以是随机性的： $s_{t+1} \sim P(\cdot|s_t, a_t).$

Reward and Return（奖励和返回）

奖励函数R是基于当前的状态、采取的行为和下一个状态： $r_t = R(s_t, a_t, s_{t+1})$ 。也常被简化为只依赖于当前状态 $r_t = R(s_t)$ 或状态行为对 $r_t = R(s_t,a_t)$ .

第一类返回是有限范围的返回R： $R(\tau) = \sum_{t=0}^T r_t.$

第二类返回是无限范围的返回R： $R(\tau) = \sum_{t=0}^{\infty} \gamma^t r_t.$

Value Fuction（值函数）

1.on-policy值函数： $V^{\pi}(s) = \underE{\tau \sim \pi}{R(\tau)\left| s_0 = s\right.}$ ，时间是有限范围时： $R(\tau) = \sum_{t=0}^T r_t.$ ，时间是无限范围时： $R(\tau) = \sum_{t=0}^{\infty} \gamma^t r_t.$

2.on-policy行为值函数： $Q^{\pi}(s,a) = \underE{\tau \sim \pi}{R(\tau)\left| s_0 = s, a_0 = a\right.}$

3.最优值函数： $V^*(s) = \max_{\pi} \underE{\tau \sim \pi}{R(\tau)\left| s_0 = s\right.}$

4.最优行为值函数： $Q^*(s,a) = \max_{\pi} \underE{\tau \sim \pi}{R(\tau)\left| s_0 = s, a_0 = a\right.}$

on-policy值函数和on-policy行为值函数关系： $V^{\pi}(s) = \underE{a\sim \pi}{Q^{\pi}(s,a)},$

解释：因为是每采取一个 $\pi$ 策略采样得到的a所得的奖励值，若根据一个 $\pi$ 策略采样a执行获得奖励直到程序终止所累积的奖励值期望即为

最优值函数和最优行为值函数的关系： $V^*(s) = \max_a Q^* (s,a).$

解释：因为是执行行为a之后所有Q值中的最大值，也就是V的最大值

说明：Q值是某状态执行某行为之后获得累计奖励的期望，V值是某状态下可以总共获得累计奖励的期望。V值包含Q值。

Bellman equation（贝尔曼方程）

以上所有四个值函数遵守特别的一致性的方程叫作贝尔曼方程。

贝尔曼方程的基本思想：你当前状态的价值是你希望从该状态得到的奖励加上你下一次到达的状态的值。

对于on-policy值函数的贝尔曼方程是：

$\begin{align*} V^{\pi}(s) &= \underE{a \sim \pi \\ s'\sim P}{r(s,a) + \gamma V^{\pi}(s')}, \\ Q^{\pi}(s,a) &= \underE{s'\sim P}{r(s,a) + \gamma \underE{a'\sim \pi}{Q^{\pi}(s',a')}}, \end{align*}$

其中， $s' \sim P$ 是 $s' \sim P(\cdot |s,a)$ 的缩写，表示下一次状态是从环境的转移规则上采样得到； $a \sim \pi$ 是 $a \sim \pi(\cdot|s)$ 的缩写； $a' \sim \pi$ 是 $a' \sim \pi(\cdot|s')$ 的缩写

对于最优值函数的贝尔曼方程是：

$\begin{align*} V^*(s) &= \max_a \underE{s'\sim P}{r(s,a) + \gamma V^*(s')}, \\ Q^*(s,a) &= \underE{s'\sim P}{r(s,a) + \gamma \max_{a'} Q^*(s',a')}. \end{align*}$

在on-policy值函数的贝尔曼方程和最优值函数之间关键的区别是在行为上是否可得到最大值的奖励。

Advantage Fuction（优势函数）

优势函数 $A^{\pi}(s,a)$ 相当于一个策略 $\pi$ ，描述的是在状态s下采取一个确切动作a有多好。

数学上，优势函数的定义是 $A^{\pi}(s,a) = Q^{\pi}(s,a) - V^{\pi}(s).$

Markov Decision Processes (MDPs)

一个马尔可夫决策过程是一个五元组 $\langle S, A, R, P, \rho_0 \rangle$

$S$ 是使用有效状态的集合
$A$ 是所有有效行为的集合
$R : S \times A \times S \to \mathbb{R}$ 是带有 $r_t = R(s_t, a_t, s_{t+1})$ 的奖励函数
$P : S \times A \to \mathcal{P}(S)$ 是带有在当前状态 $s$ 采取行为 $a$ 转换到状态 $s'$ 的概率 $P(s'|s,a)$ 的转换概率函数
$\rho_0$ 起始状态分布.（类似折扣因子γ）