2025 年 6月 7 日随笔档案 - MoonOut

摘要：考虑一步策略改进，把选 action 的概率 $\pi (a|s)$ 当作变量，$\sum \pi (a|s) = 1$ 作为约束条件，使用拉格朗日乘子 $\lambda$ 干掉。对 $V^\text{new}(s)$ 求偏导，偏导数 = 0。阅读全文

posted @ 2025-06-07 21:31 MoonOut 阅读(208) 评论(0) 推荐(0)

月出兮彩云归 🌙