tokamak9000

博客园 首页 新随笔 联系 订阅 管理

2026年2月2日 #

摘要: a 是动作,s 是环境,R 是奖励,$t$ 是时间步,$\tau$ 是“轨迹”(步骤序列,$\tau = (s_0, a_0, s_1, a_1, ...).$),$\gamma$ 是折扣系数(大多数介于0.95 - 0.99),k作为指数,让早期的奖励更重要。 $$ R(\tau) = \sum_ 阅读全文
posted @ 2026-02-02 18:30 tokamak9000 阅读(2) 评论(0) 推荐(0)