强化学习(十九)-稀疏奖励
一、概念
1、实际环境中,用强化学习训练智能体,多数时候智能体不能得到奖励,即奖励很稀疏(稀少)
2、例如人在大部分时候,是不会得到奖励或者惩罚的,只是普通的生活
3、在得不到奖励的情况下,训练智能体是很困难的,智能体什么都学不到
二、解决方法
1、设计奖励:虽然环境没有给智能体奖励,但可以人为给智能体奖励;但需要人懂得业务知识才能设计奖励
2、好奇心:使用内在好奇心模块,让智能体有好奇心;并使用特征提取器,来过滤掉无关紧要的信息
3、课程学习:为智能体的学习做规划,使用的训练数据是有序的,由易到难
4、逆课程学习:从目标状态开始,依此寻找距离最近的状态,并过滤掉太简单或者太难的极端状态
5、分层强化学习:把一个复杂的强化学习问题,分解为子问题,使用多个智能体进行分工,一些智能体负责高层次的规划,一些智能体负责低层次的执行
参考:
https://datawhalechina.github.io/easy-rl/#/