摘要: GAE 的具体计算方式 GAE 是一种在强化学习中用于估计优势函数的高级技巧,它通过一个参数 λ 来巧妙地平衡偏差 (bias) 和方差 (variance),从而得到更稳定和高效的策略更新。 1. 目标:估计优势函数 (Advantage Function) 首先,我们想估计的目标是优势函数 \( 阅读全文
posted @ 2025-10-11 00:50 AikNr 阅读(365) 评论(0) 推荐(0)