会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
tsyhahaha
博客园
首页
新随笔
联系
订阅
管理
2023年8月4日
强化学习Chapter4——两个基本优化算法(2)
摘要: 强化学习Chapter4——两个基本优化算法(2) 上一节,依据贝尔曼方程得出了策略迭代算法(policy iteration),本节将介绍另一种根据贝尔曼最优方程提出的,价值迭代算法(value iteration)。在此之后,将阐述这两种算法的共性与区别,并总结出一个中间性能的截断策略迭代算法(
阅读全文
posted @ 2023-08-04 00:29 tsyhahaha
阅读(286)
评论(0)
推荐(0)
公告