会员
周边
新闻
博问
闪存
众包
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
米么裤
博客园
首页
新随笔
联系
订阅
管理
11 2020 档案
随机策略梯度定理
摘要:随机策略梯度定理 值函数方法在一些应用里发挥了重要的作用,但是也有一些局限: 值函数导向找到一个确定性的策略,但是通常最优策略是随机策略(sutton2000论述); 在值函数的估计中,一个小的变化就会导致动作是否被选择发生改变; Policy Gradient Theorm 时间 \(t\in\{
阅读全文
posted @
2020-11-03 22:36
米么裤
阅读(559)
评论(0)
推荐(0)
公告