11 2020 档案

摘要:随机策略梯度定理 值函数方法在一些应用里发挥了重要的作用,但是也有一些局限: 值函数导向找到一个确定性的策略,但是通常最优策略是随机策略(sutton2000论述); 在值函数的估计中,一个小的变化就会导致动作是否被选择发生改变; Policy Gradient Theorm 时间 \(t\in\{ 阅读全文
posted @ 2020-11-03 22:36 米么裤 阅读(559) 评论(0) 推荐(0)