会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
jiangweiwang
博客园
首页
新随笔
联系
订阅
管理
2025年4月20日
重要性采样
摘要: 强化学习中策略优化的核心目标函数之一,写作: \[\mathbb{E}_{\tau \sim P_\theta(\tau)}[R(\tau)] = \sum_{\tau} R(\tau) P_\theta(\tau) \]含义逐个解释: \(\tau\):表示一个完整的轨迹(trajectory),
阅读全文
posted @ 2025-04-20 15:12 不报异常的空指针
阅读(333)
评论(0)
推荐(0)
公告