摘要:
目录参考内容1. 从 Q-table 到 Q-Network如何训练 Q-Network?—— 损失函数技巧一:经验回放 (Experience Replay)技巧二:固定Q目标 (Fixed Q-Targets)DQN 算法完整流程 参考 https://g.co/gemini/share/001 阅读全文
posted @ 2025-07-13 21:38
jack-chen666
阅读(27)
评论(0)
推荐(0)
摘要:
目录参考Q-learning1. 核心思想:动作价值函数 Q(s, a)关键特性:异策略 (Off-policy)3. Q-learning 的更新公式4. Q-learning 算法流程5. 与 SARSA 的对比代码解读核心概念:状态离散化数据结构:Q-Table核心算法:Q-Learning 阅读全文
posted @ 2025-07-13 11:51
jack-chen666
阅读(160)
评论(0)
推荐(0)
摘要:
目录参考蒙特卡洛(Monte Carlo)时序差分学习 (Temporal-Difference, TD)N步自举 (n-step Bootstrapping) 参考 Https://newfacade.github.io/notes-on-reinforcement-learning/07-mon 阅读全文
posted @ 2025-07-13 11:24
jack-chen666
阅读(58)
评论(0)
推荐(0)

浙公网安备 33010602011771号