强化学习 - 01 符号定义

设一局游戏有\(n\)步，一局中的奖励记作\(R_1,\cdots,R_n\)。那么\(t\)时刻的：

折扣回报：\(U_t=\sum_{k=t}^n \gamma^{k-t} \cdot R_k\)
动作价值函数：\(Q_\pi\left( s_t, a_t \right) = \mathbb {E}\left[ U_t\mid S_t=s_t,A_t=a_t \right]\)
状态价值函数：\(V_\pi\left( s_t \right) = \mathbb{E}_{A_t \sim \pi\left( \cdot \mid s_t;\theta \right) }\left[ Q_\pi\left( s_t, A_t \right) \right]\)
目标函数：\(J\left( \theta \right)=\mathbb{E}_S \left[ V_\pi\left( S \right) \right]\)

动作价值函数的贝尔曼公式：\(Q_\pi\left( s_t,a_t \right) = \mathbb{E}_{S_{t+1}\sim p\left( \cdot\mid s_t,a_t \right)} \left[ R_t+\gamma\cdot V_\pi\left( S_{t+1} \right) \right]\)

状态价值函数的贝尔曼公式：\(V_\pi\left( s_t \right)=\mathbb{E}_{A_t\sim \pi\left( \cdot\mid s_t;\theta \right)}\left[ \mathbb{E}_{S_{t+1}\sim p\left( \cdot\mid s_t,a_t \right)} \left[ R_t+\gamma\cdot V_\pi\left( S_{t+1} \right) \right]\right]\)

posted @ 2022-03-03 23:11 HeyRay_Yang 阅读(158) 评论(0) 收藏举报

刷新页面返回顶部

加载中...

HeyRay's Blog

为有牺牲多壮志，敢教日月换新天

强化学习 - 01 符号定义

公告