2023年2月25日
摘要: 第二章 多臂tiger机问题 第一节 简介 强化学习是一种试错型学习范式。 第二节 问题介绍 多臂tiger机(multi-armed bandit,MAB)不存在状态信息,只有动作和奖励。有一个拥有K根拉杆的tiger机,拉动每一根拉杆都对应一个关于奖励的概率分布R。我们每次拉动其中一根拉杆,就可 阅读全文
posted @ 2023-02-25 09:25 小染子 阅读(166) 评论(0) 推荐(0)