2023 年 2月 25 日随笔档案 - 小染子

2023年2月25日

摘要：第二章多臂tiger机问题第一节简介强化学习是一种试错型学习范式。第二节问题介绍多臂tiger机（multi-armed bandit，MAB）不存在状态信息，只有动作和奖励。有一个拥有K根拉杆的tiger机，拉动每一根拉杆都对应一个关于奖励的概率分布R。我们每次拉动其中一根拉杆，就可阅读全文

posted @ 2023-02-25 09:25 小染子阅读(186) 评论(0) 推荐(0)