强化学习(十九)-稀疏奖励

一、概念

1、实际环境中,用强化学习训练智能体,多数时候智能体不能得到奖励,即奖励很稀疏(稀少)

2、例如人在大部分时候,是不会得到奖励或者惩罚的,只是普通的生活

3、在得不到奖励的情况下,训练智能体是很困难的,智能体什么都学不到

 

二、解决方法

1、设计奖励:虽然环境没有给智能体奖励,但可以人为给智能体奖励;但需要人懂得业务知识才能设计奖励

2、好奇心:使用内在好奇心模块,让智能体有好奇心;并使用特征提取器,来过滤掉无关紧要的信息

3、课程学习:为智能体的学习做规划,使用的训练数据是有序的,由易到难

4、逆课程学习:从目标状态开始,依此寻找距离最近的状态,并过滤掉太简单或者太难的极端状态

5、分层强化学习:把一个复杂的强化学习问题,分解为子问题,使用多个智能体进行分工,一些智能体负责高层次的规划,一些智能体负责低层次的执行

 

 

参考:

https://datawhalechina.github.io/easy-rl/#/

posted @ 2025-09-15 11:16  牧云文仔  阅读(43)  评论(0)    收藏  举报