摘要:
目录参考Q-learning1. 核心思想:动作价值函数 Q(s, a)关键特性:异策略 (Off-policy)3. Q-learning 的更新公式4. Q-learning 算法流程5. 与 SARSA 的对比 参考 https://newfacade.github.io/notes-on-r 阅读全文
posted @ 2025-07-13 11:51
jack-chen666
阅读(1)
评论(0)
推荐(0)
摘要:
目录参考蒙特卡洛(Monte Carlo)时序差分学习 (Temporal-Difference, TD)N步自举 (n-step Bootstrapping) 参考 Https://newfacade.github.io/notes-on-reinforcement-learning/07-mon 阅读全文
posted @ 2025-07-13 11:24
jack-chen666
阅读(1)
评论(0)
推荐(0)