会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
PT小陈
博客园
首页
新随笔
联系
订阅
管理
Actor Critic
Actor Critic
Actor Critic(演员评判家),它合并了以值为基础(比如Q learning)和以动作概率为基础(比如 Policy Gradients)两类强化学习算法。
博客内容用于记录自己学习后的收获,如有侵权请联系我删除
posted @
2020-09-02 18:12
PT小陈
阅读(
240
) 评论(
0
)
收藏
举报
刷新页面
返回顶部
公告