10 2025 档案

摘要:一句话总结 GAE 就像「既要稳又要准」的聪明妥协:用多步 TD 误差加权平均,既缓解了 MC 的高方差,又减少了 TD 的单一偏差,通过调节参数(λ)灵活平衡两者的优缺点。 MC vs TD 的痛点 MC(蒙特卡洛): 原理:跑完整个回合,用实际总回报(如游戏通关后的总分)更新每一步的价值。 优点 阅读全文
posted @ 2025-10-11 00:50 AikNr 阅读(56) 评论(0) 推荐(0)