强化学习Reinforcement Learning - 文章分类 - Hell0er

八、Actor-Critic 算法

摘要：1 简介我们之前介绍了基于价值函数的 DQN 算法和基于策略函数的 REINFORCE 算法，接下来将两者结合，既学习价值函数又学习策略函数的 Actor-Critic 算法。需要明确的是，Actor-Critic 算法本质上是基于策略的算法，因为这一系列算法的目标都是优化一个带参数的策略，只是会阅读全文

posted @ 2024-05-05 11:03 Hell0er 阅读(367) 评论(0) 推荐(0)

七、策略梯度算法

摘要：1 简介之前介绍的 Q-learning、DQN 和 DQN 改进算法都属于基于价值（value-based）的方法，其中 Q-learning 是处理有限状态的算法，而 DQN 是处理连续状态的算法。处理基于价值的方法，还有一种基于策略（policy-based）的方法。对比两者，基于值函数的方阅读全文

posted @ 2024-05-02 10:41 Hell0er 阅读(123) 评论(0) 推荐(0)

六、DQN改进算法

摘要：1 简介本章将介绍两个非常著名的算法：Double DQN 和 Dueling DQN，这两个算法的实现非常简单，只需要在 DQN 的基础上稍加修改，就能在一定程度上改善 DQN 的效果。 2 Double DQN 算法普通的 DQN 算法会导致对 Q 值的过高估计（overestimate），阅读全文

posted @ 2024-04-29 10:33 Hell0er 阅读(300) 评论(0) 推荐(0)

五、DQN算法

摘要：1 简介当状态或动作的数量非常庞大甚至连续时，可以认为状态动作对（state-action pair）是无限的，此时，我们无法用表格的形式（Q_table）来表示各个状态动作对的 action value。那么就需要用函数拟合的方法来估计 \(q(s,a)\)，即将这个复杂的 \(q\) 值表格视阅读全文

posted @ 2024-04-28 10:32 Hell0er 阅读(603) 评论(0) 推荐(0)

四、Dyna-Q算法

摘要：1 Dyna-Q算法 Dyna-Q 算法是一个经典的基于模型的强化学习算法。如图所示，Dyna-Q 使用一种叫做 Q-planning 的方法来基于模型生成一些模拟数据，然后用模拟数据和真实数据一起改进策略。Q-planning 每次选取一个曾经访问过的状态 s，采取一个曾经在该状态下执行过的动作阅读全文

posted @ 2024-04-25 10:18 Hell0er 阅读(262) 评论(0) 推荐(0)

三、时序差分方法Temporal-Difference

摘要：1 简介不同于动态规划算法，无模型的强化学习算法不需要事先知道环境的奖励函数和状态转移函数，而是直接使用和环境交互的过程中采样到的数据来学习，这使得它可以被应用到一些简单的实际场景中。本章将要讲解无模型的强化学习中的两大经典算法：Sarsa 和 Q-learning，它们都是基于时序差分（temp 阅读全文

posted @ 2024-04-24 14:01 Hell0er 阅读(418) 评论(0) 推荐(0)

二、动态规划算法Dynamic Programming——策略迭代和价值迭代

摘要：1 简介基于动态规划的强化学习算法主要有两种：一是策略迭代（policy iteration），二是价值迭代（value iteration）。其中，策略迭代由两部分组成：策略评估（policy evaluation）和策略提升（policy improvement）。具体来说，策略迭代中的策略评阅读全文

posted @ 2024-04-22 14:13 Hell0er 阅读(1498) 评论(0) 推荐(0)

一、多臂tiger机

摘要：1 问题介绍 1.1 问题定义在多臂tiger机（multi-armed bandit，MAB）问题中，有一个拥有 K 根拉杆的tiger机，拉动每一根拉杆都对应一个关于奖励的概率分布 R 。我们每次拉动其中一根拉杆，就可以从该拉杆对应的奖励概率分布中获得一个奖励 r 。我们在各根拉杆的奖励概率分阅读全文

posted @ 2024-04-19 19:39 Hell0er 阅读(127) 评论(0) 推荐(0)

文章分类 - 强化学习Reinforcement Learning

公告