04 2019 档案

摘要:为什么需要引入决定性策略梯度? 决定性策略梯度算法对于策略函数的更新形式比较简单,就是action-value函数的期望,这种简单的形式能够在估计policy时变得更有效。 作为随机策略,在相同的策略,在同一个状态处,采用的动作是基于一个概率分布的,即是不确定的。而确定性策略则决定简单点,虽然在同一 阅读全文
posted @ 2019-04-24 23:40 Ruidongch 阅读(2248) 评论(0) 推荐(0)
摘要:该理解建立在Policy Gradient Methods for Reinforcement Learning with Function Approximation论文阅读理解之上 首先明确优化目标$\rho(\pi)$,其中策略$\pi$是包含参数$\theta$的未知函数,一般有两种形式。 阅读全文
posted @ 2019-04-23 12:37 Ruidongch 阅读(339) 评论(0) 推荐(0)
摘要:本篇论文讨论了策略梯度方法的函数逼近问题。首先明确策略梯度的目标函数:最大化策略$\pi$下的累计回报$\rho(\pi)$ \[\rho ( \pi ) = E \left\{ \sum _ { t = 1 } ^ { \infty } \gamma ^ { t - 1 } r _ { t } | 阅读全文
posted @ 2019-04-07 08:12 Ruidongch 阅读(2355) 评论(0) 推荐(0)