摘要:
一、概念 1、很多情况下,环境没有明确的奖励,例如聊天,自动驾驶的操作,无法明确定义好坏 2、不知道该怎么定义奖励时,可以收集专家示范 3、模仿学习(imitation learning,IL):智能体通过专家示范来学习,环境没有奖励给智能体 二、行为克隆 1、类似于监督学习,专家做什么,智能体就做 阅读全文
posted @ 2025-09-15 11:46
牧云文仔
阅读(59)
评论(0)
推荐(0)
摘要:
一、概念 1、实际环境中,用强化学习训练智能体,多数时候智能体不能得到奖励,即奖励很稀疏(稀少) 2、例如人在大部分时候,是不会得到奖励或者惩罚的,只是普通的生活 3、在得不到奖励的情况下,训练智能体是很困难的,智能体什么都学不到 二、解决方法 1、设计奖励:虽然环境没有给智能体奖励,但可以人为给智 阅读全文
posted @ 2025-09-15 11:16
牧云文仔
阅读(56)
评论(0)
推荐(0)
浙公网安备 33010602011771号