会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
白婷的博客
知乎: https://www.zhihu.com/people/bai-bai-87-80-88
博客园
首页
新随笔
联系
订阅
管理
12 2018 档案
idea-> text for rec
该文被密码保护。
posted @
2018-12-27 12:06
白婷
阅读(0)
评论(0)
推荐(0)
强化学习概览
摘要:RL分类: value based, policy based, actor critic. 一、value based. Q-learning Q表示的是,在状态s下采取动作a能够获得的期望最大收益,R是立即获得的收益,而未来一期的收益则取决于下一阶段的动作。 更新公式 Q(S,A) ← (1-α
阅读全文
posted @
2018-12-05 11:09
白婷
阅读(446)
评论(0)
推荐(0)
公告