摘要: 2. 状态价值(State Value) 状态价值 \(V_\pi(s)\) 表示在策略 \(\pi\) 下,从状态 \(s\) 开始的预期回报(Expected Return)。 \[V_\pi(s) = \mathbb{E}_{A_t, S_{t+1}, \ldots} \left[ U_t | 阅读全文
posted @ 2025-04-19 18:00 不报异常的空指针 阅读(45) 评论(0) 推荐(0)