2025 年 9月 15 日随笔档案 - 牧云文仔

2025年9月15日

摘要：一、概念 1、很多情况下，环境没有明确的奖励，例如聊天，自动驾驶的操作，无法明确定义好坏 2、不知道该怎么定义奖励时，可以收集专家示范 3、模仿学习（imitation learning，IL）：智能体通过专家示范来学习，环境没有奖励给智能体二、行为克隆 1、类似于监督学习，专家做什么，智能体就做阅读全文

posted @ 2025-09-15 11:46 牧云文仔阅读(100) 评论(0) 推荐(0)

强化学习（十九）-稀疏奖励

摘要：一、概念 1、实际环境中，用强化学习训练智能体，多数时候智能体不能得到奖励，即奖励很稀疏（稀少） 2、例如人在大部分时候，是不会得到奖励或者惩罚的，只是普通的生活 3、在得不到奖励的情况下，训练智能体是很困难的，智能体什么都学不到二、解决方法 1、设计奖励：虽然环境没有给智能体奖励，但可以人为给智阅读全文

posted @ 2025-09-15 11:16 牧云文仔阅读(116) 评论(0) 推荐(0)

牧云文仔

公告