强化学习：reward function shaping —— 着陆器（lander）游戏中的奖励函数的设计

lander 游戏是强化学习问题中常使用的一个游戏场景，不同人对该问题都设置了不同的reward function，一直也没有对该游戏的各种reward function的设计做一个记录，正好看视频看到了一个该游戏的reward function的设计，这里mark下。

资料来源：

==============================================

给出了第一种 reward function 设计，该种设计为复杂设计：

第二种设计，简单设计的 reward function：

posted on 2023-06-27 16:31 Angry_Panda 阅读(282) 评论(0) 收藏举报

刷新页面返回顶部

Angry Panda（T-800）