九、强化学习第九篇--稀疏奖励

实际上用 reinforcement learning learn agent 的时候，多数的时候 agent 都是没有办法得到 reward的。在没有办法得到 reward 的情况下，训练 agent 是非常困难的。如果环境中的 reward 非常 sparse， reinforcement learning 的问题就会变得非常的困难，但是人类可以在非常 sparse 的 reward 上面去学习。所以，一个真正厉害的 AI 应该能够在 sparse reward 的情况下也学到要怎么跟这个环境互动。可以通过三个方向来解决sparse reward的问题。

1、Reward Shaping

Reward shaping 的意思是说环境有一个固定的 reward，它是真正的reward，但是为了让 agent 学出来的结果是我们要的样子，我们刻意地设计了一些 reward 来引导我们的agent。

Reward shaping 的概念是一样的，简单来说，就是你自己想办法 design 一些 reward，它不是环境真正的 reward。在玩 Atari游戏里面，真的 reward 是游戏主机给你的 reward，但你自己去设计一些 reward 好引导你的 machine，做你想要它做的事情。