04 2019 档案
摘要:为什么需要引入决定性策略梯度? 决定性策略梯度算法对于策略函数的更新形式比较简单,就是action-value函数的期望,这种简单的形式能够在估计policy时变得更有效。 作为随机策略,在相同的策略,在同一个状态处,采用的动作是基于一个概率分布的,即是不确定的。而确定性策略则决定简单点,虽然在同一
阅读全文
摘要:该理解建立在Policy Gradient Methods for Reinforcement Learning with Function Approximation论文阅读理解之上 首先明确优化目标$\rho(\pi)$,其中策略$\pi$是包含参数$\theta$的未知函数,一般有两种形式。
阅读全文
摘要:本篇论文讨论了策略梯度方法的函数逼近问题。首先明确策略梯度的目标函数:最大化策略$\pi$下的累计回报$\rho(\pi)$ \[\rho ( \pi ) = E \left\{ \sum _ { t = 1 } ^ { \infty } \gamma ^ { t - 1 } r _ { t } |
阅读全文

浙公网安备 33010602011771号