强化学习(二十)-模仿学习

一、概念

1、很多情况下,环境没有明确的奖励,例如聊天,自动驾驶的操作,无法明确定义好坏

2、不知道该怎么定义奖励时,可以收集专家示范

3、模仿学习(imitation learning,IL):智能体通过专家示范来学习,环境没有奖励给智能体

 

二、行为克隆

1、类似于监督学习,专家做什么,智能体就做一模一样的事情

2、缺点

数据少,状态有限

完全模仿专家,而专家可能有不好的行为

训练数据和测试数据不匹配

 

三、逆强化学习

1、强化学习通过环境和奖励函数,找到最优动作

2、逆强化学习没有奖励函数,只有专家,反向推导出奖励函数,并找到最优动作

 

四、第三人视角模仿学习

智能体在模仿专家学习的时候,是以第三人视角学习的,但是真正操作的时候,就变成了第一人视角

 

 

 

 

 

 

参考:

https://datawhalechina.github.io/easy-rl/#/

 

posted @ 2025-09-15 11:46  牧云文仔  阅读(100)  评论(0)    收藏  举报