会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
马帅领
博客园
首页
新随笔
联系
管理
订阅
2019年6月9日
李弘毅的强化学习
摘要: 1\policy Gradient(Review) 三个组件:Actor\Enviroment\Reward Enviromwnt和Reward开始之前就已经存在,能调整的就是Actor的策略,如何是Actor的策略可以得到最大的Reward. 2\Policy of Actor policy:π,
阅读全文
posted @ 2019-06-09 00:42 马帅领
阅读(168)
评论(0)
推荐(0)
公告