会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
yingfengwu
The so-called excellent person is to let the world, because with me, be a little different.
博客园
首页
新随笔
联系
订阅
管理
2020年2月28日
Policy-based Approach(基于策略的方法)
摘要: step 1:Neural Network as Actor step 2:goodness of function(训练一些Actor) 是一个序列,包含T个状态s、行为a、奖励s。代表某一次的开始到结束的过程。 是一个奖励和,全部episode从开始到结束的总reward。 是某一设定好的参数获
阅读全文
posted @ 2020-02-28 17:31 yingfengwu
阅读(426)
评论(0)
推荐(0)
公告