会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
AikNr
噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜噜
博客园
首页
新随笔
联系
订阅
管理
10 2025 档案
GAE-广义优势估计算法介绍
摘要:一句话总结 GAE 就像「既要稳又要准」的聪明妥协:用多步 TD 误差加权平均,既缓解了 MC 的高方差,又减少了 TD 的单一偏差,通过调节参数(λ)灵活平衡两者的优缺点。 MC vs TD 的痛点 MC(蒙特卡洛): 原理:跑完整个回合,用实际总回报(如游戏通关后的总分)更新每一步的价值。 优点
阅读全文
posted @
2025-10-11 00:50
AikNr
阅读(56)
评论(0)
推荐(0)
公告