摘要:
a 是动作,s 是环境,R 是奖励,$t$ 是时间步,$\tau$ 是“轨迹”(步骤序列,$\tau = (s_0, a_0, s_1, a_1, ...).$),$\gamma$ 是折扣系数(大多数介于0.95 - 0.99),k作为指数,让早期的奖励更重要。 $$ R(\tau) = \sum_ 阅读全文
posted @ 2026-02-02 18:30
tokamak9000
阅读(2)
评论(0)
推荐(0)
浙公网安备 33010602011771号