会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
芋圆院长
博客园
首页
新随笔
联系
订阅
管理
2022年4月12日
强化学习表格型求解方法、表格近似(函数)求解方法、策略梯度方法的区别
摘要: 近来发现自己概念有些混淆,写一点自己对从Sutton书上看到的这些方法之间联系的理解和想法。 【如有不恰当的地方,欢迎指正!】 前言 强化学习的初始驱动就是通过和环境互动得到的奖励来评估经历过的状态或状态下选择的动作的好坏,从而选择出合适的策略进行控制。 所以最好的办法就是之前DP提到的利用贝尔曼方
阅读全文
posted @ 2022-04-12 21:11 芋圆院长
阅读(140)
评论(0)
推荐(0)
公告