会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
tsyhahaha
博客园
首页
新随笔
联系
订阅
管理
2023年8月3日
强化学习Chapter4——两个基本优化算法(1)
摘要: 强化学习Chapter4——两个基本优化算法(1) 上一节导出了状态价值函数的贝尔曼方程以及最优状态价值函数: \[\begin{aligned} V^\pi(s) &=E_{a\sim \pi,s’\sim P}[r(s,a)+\gamma V^\pi(s‘)]\\ &= \sum_{a}\pi(
阅读全文
posted @ 2023-08-03 22:38 tsyhahaha
阅读(261)
评论(0)
推荐(0)
公告