2019 年 4月随笔档案 - Ruidongch

文献笔记:Deterministic Policy Gradient Algorithms

摘要：为什么需要引入决定性策略梯度？决定性策略梯度算法对于策略函数的更新形式比较简单，就是action-value函数的期望，这种简单的形式能够在估计policy时变得更有效。作为随机策略，在相同的策略，在同一个状态处，采用的动作是基于一个概率分布的，即是不确定的。而确定性策略则决定简单点，虽然在同一阅读全文

posted @ 2019-04-24 23:40 Ruidongch 阅读(2248) 评论(0) 推荐(0)

策略梯度方法

摘要：该理解建立在Policy Gradient Methods for Reinforcement Learning with Function Approximation论文阅读理解之上首先明确优化目标$\rho(\pi)$,其中策略$\pi$是包含参数$\theta$的未知函数，一般有两种形式。阅读全文

posted @ 2019-04-23 12:37 Ruidongch 阅读(339) 评论(0) 推荐(0)

文献笔记:Policy Gradient Methods for Reinforcement Learning with Function Approximation

摘要：本篇论文讨论了策略梯度方法的函数逼近问题。首先明确策略梯度的目标函数：最大化策略$\pi$下的累计回报$\rho(\pi)$ \[\rho ( \pi ) = E \left\{ \sum _ { t = 1 } ^ { \infty } \gamma ^ { t - 1 } r _ { t } | 阅读全文

posted @ 2019-04-07 08:12 Ruidongch 阅读(2355) 评论(0) 推荐(0)

Ruidongch

04 2019 档案

公告