摘要: 强化学习Chapter4——两个基本优化算法(1) 上一节导出了状态价值函数的贝尔曼方程以及最优状态价值函数: \[\begin{aligned} V^\pi(s) &=E_{a\sim \pi,s’\sim P}[r(s,a)+\gamma V^\pi(s‘)]\\ &= \sum_{a}\pi( 阅读全文
posted @ 2023-08-03 22:38 tsyhahaha 阅读(261) 评论(0) 推荐(0)