11 2020 档案

随机策略梯度定理

摘要：随机策略梯度定理值函数方法在一些应用里发挥了重要的作用，但是也有一些局限：值函数导向找到一个确定性的策略，但是通常最优策略是随机策略（sutton2000论述）；在值函数的估计中，一个小的变化就会导致动作是否被选择发生改变； Policy Gradient Theorm 时间 \(t\in\{ 阅读全文

posted @ 2020-11-03 22:36 米么裤阅读(559) 评论(0) 推荐(0)

米么裤

11 2020 档案

公告