九、强化学习第九篇--稀疏奖励
实际上用 reinforcement learning learn agent 的时候,多数的时候 agent 都是没有办法得到 reward的。在没有办法得到 reward 的情况下,训练 agent 是非常困难的。 如果环境中的 reward 非常 sparse, reinforcement learning 的问题就会变得非常的困难,但是人类可以在非常 sparse 的 reward 上面去学习 。所以,一个真正厉害的 AI 应该能够在 sparse reward 的情况下也学到要怎么跟这个环境互动 。可以通过三个方向来解决sparse reward的问题。
1、Reward Shaping
Reward shaping 的意思是说环境有一个固定的 reward,它是真正的reward,但是为了让 agent 学出来的结果是我们要的样子,我们刻意地设计了一些 reward 来引导我们的agent。
Reward shaping 的概念是一样的,简单来说,就是你自己想办法 design 一些 reward,它不是环境真正的 reward。在玩 Atari游戏里面,真的 reward 是游戏主机给你的 reward,但你自己去设计一些 reward 好引导你的 machine,做你想要它做的事情。


2、Curiosity


如何设计ICM?下图是原始的ICM设计。



但这个原始的ICM还是存在问题的,因为它没有把state中没有意义的东西直接过滤掉。即光有好奇心是不够的,还要让它知道说,什么事情是真正重要的。所以,进一步改进ICM结构。

3、hierarchical reinforcement learning
分层强化学习 (hierarchical reinforcement learning, HRL)。分层强化学习是说,我们有好几个 agent。然后,有一些 agent 负责比较 high level 的东西,它负责订目标,然后它订完目标以后,再分配给其他的 agent,去把它执行完成 。

分层强化学习是指将一个复杂的强化学习问题分解成多个小的、简单的子问题,每个子问题都可以单独用马尔可夫决策过程来建模。这样,我们可以将智能体的策略分为高层次策略和低层次策略,高层次策略根据当前状态决定如何执行低层次策略。这样,智能体就可以解决一些非常复杂的任务 。

浙公网安备 33010602011771号