文章分类 -  强化学习Reinforcement Learning

摘要:1 简介 我们之前介绍了基于价值函数的 DQN 算法和基于策略函数的 REINFORCE 算法,接下来将两者结合,既学习价值函数又学习策略函数的 Actor-Critic 算法。需要明确的是,Actor-Critic 算法本质上是基于策略的算法,因为这一系列算法的目标都是优化一个带参数的策略,只是会 阅读全文
posted @ 2024-05-05 11:03 Hell0er 阅读(367) 评论(0) 推荐(0)
摘要:1 简介 之前介绍的 Q-learning、DQN 和 DQN 改进算法都属于基于价值(value-based)的方法,其中 Q-learning 是处理有限状态的算法,而 DQN 是处理连续状态的算法。处理基于价值的方法,还有一种基于策略(policy-based)的方法。对比两者,基于值函数的方 阅读全文
posted @ 2024-05-02 10:41 Hell0er 阅读(123) 评论(0) 推荐(0)
摘要:1 简介 本章将介绍两个非常著名的算法:Double DQN 和 Dueling DQN,这两个算法的实现非常简单,只需要在 DQN 的基础上稍加修改,就能在一定程度上改善 DQN 的效果。 2 Double DQN 算法 普通的 DQN 算法会导致对 Q 值的过高估计(overestimate), 阅读全文
posted @ 2024-04-29 10:33 Hell0er 阅读(300) 评论(0) 推荐(0)
摘要:1 简介 当状态或动作的数量非常庞大甚至连续时,可以认为状态动作对(state-action pair)是无限的,此时,我们无法用表格的形式(Q_table)来表示各个状态动作对的 action value。那么就需要用函数拟合的方法来估计 \(q(s,a)\),即将这个复杂的 \(q\) 值表格视 阅读全文
posted @ 2024-04-28 10:32 Hell0er 阅读(603) 评论(0) 推荐(0)
摘要:1 Dyna-Q算法 Dyna-Q 算法是一个经典的基于模型的强化学习算法。如图所示,Dyna-Q 使用一种叫做 Q-planning 的方法来基于模型生成一些模拟数据,然后用模拟数据和真实数据一起改进策略。Q-planning 每次选取一个曾经访问过的状态 s,采取一个曾经在该状态下执行过的动作 阅读全文
posted @ 2024-04-25 10:18 Hell0er 阅读(262) 评论(0) 推荐(0)
摘要:1 简介 不同于动态规划算法,无模型的强化学习算法不需要事先知道环境的奖励函数和状态转移函数,而是直接使用和环境交互的过程中采样到的数据来学习,这使得它可以被应用到一些简单的实际场景中。本章将要讲解无模型的强化学习中的两大经典算法:Sarsa 和 Q-learning,它们都是基于时序差分(temp 阅读全文
posted @ 2024-04-24 14:01 Hell0er 阅读(418) 评论(0) 推荐(0)
摘要:1 简介 基于动态规划的强化学习算法主要有两种:一是策略迭代(policy iteration),二是价值迭代(value iteration)。其中,策略迭代由两部分组成:策略评估(policy evaluation)和策略提升(policy improvement)。具体来说,策略迭代中的策略评 阅读全文
posted @ 2024-04-22 14:13 Hell0er 阅读(1498) 评论(0) 推荐(0)
摘要:1 问题介绍 1.1 问题定义 在多臂tiger机(multi-armed bandit,MAB)问题中,有一个拥有 K 根拉杆的tiger机,拉动每一根拉杆都对应一个关于奖励的概率分布 R 。我们每次拉动其中一根拉杆,就可以从该拉杆对应的奖励概率分布中获得一个奖励 r 。我们在各根拉杆的奖励概率分 阅读全文
posted @ 2024-04-19 19:39 Hell0er 阅读(127) 评论(0) 推荐(0)