会员
众包
新闻
博问
闪存
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
g
y
7
7
7
7
一届书生
本博客所有内容以学习、研究和分享为主,如需转载,请标明作者和出处,并且是非商业用途,谢谢。
新随笔
联系
管理
2021年1月18日
周博磊老师强化学习纲领笔记第一课:强化学习基础
摘要: 第一课:强化学习智能体的主要组成部分: Policy:引导智能体如何选取动作 Value function:来判断每个状态或者动作的好坏 Model:智能体在环境中的状态表示 Policy 一个决策就是智能体选取动作的模型 一个决策是一个映射函数,从状态、或者观测值到动作的映射 随机决策:随机概率
阅读全文
posted @ 2021-01-18 14:44 gy77
阅读(206)
评论(0)
推荐(0)
编辑
公告