55open - 博客园

2025年10月12日

摘要：策略梯度方法（Policy Gradient Methods）背景在基于值函数的方法（如 DQN）中，直接逼近 Q 值存在多种问题： Q 值无界：可能取任意实数（正或负），输出层必须是线性的； Q 值方差大：不同 \((s,a)\) 对的 Q 值差异巨大，神经网络难以拟合；仅适用于离散动作空间阅读全文

posted @ 2025-10-12 20:42 55open 阅读(45) 评论(0) 推荐(0)

2.5 分布式学习（Distributed Learning）

摘要：分布式学习（Distributed Learning）分布式 DQN（GORILA）深度强化学习的主要瓶颈是学习速度慢，主要由以下两点决定：样本复杂度（sample complexity）：获得令人满意的策略所需的状态转移数量；在线交互限制（online interaction）：智能体必须阅读全文

posted @ 2025-10-12 20:35 55open 阅读(33) 评论(0) 推荐(0)

2.4 DQN 变体（Rainbow）

摘要： DQN 变体（Rainbow）双重 DQN（Double DQN）在原始 DQN 中，经验回放与目标网络的引入使得 CNN 能够在强化学习中成功训练，但也带来了两个缺点：学习速度显著降低，样本复杂度增高；稳定性较差，不同运行结果可能不同。 @vanHasselt2015 提出了 Double 阅读全文

posted @ 2025-10-12 20:32 55open 阅读(52) 评论(0) 推荐(0)

2.3 深度 Q 网络（Deep Q-Network, DQN）

摘要：深度 Q 网络（Deep Q-Network, DQN）深度神经网络在函数逼近中的局限性值函数型深度强化学习的目标是使用深度神经网络（DNN）逼近每个状态–动作对的 Q 值。网络可以有两种形式（见下图）：以状态–动作对 \((s,a)\) 为输入，输出对应的单个 Q 值；以状态 \(s\) 阅读全文

posted @ 2025-10-12 20:26 55open 阅读(143) 评论(0) 推荐(0)

2.2 深度学习（Deep Learning）

摘要：深度学习（Deep Learning）深度强化学习（Deep RL）使用深度神经网络作为函数逼近器，从而能够学习状态–动作对的复杂表示。本节对深度学习进行简要概述，更多细节可参考 @Goodfellow2016。前馈神经网络（Feedforward Neural Networks）一个深度神经阅读全文

posted @ 2025-10-12 19:40 55open 阅读(58) 评论(0) 推荐(0)

2.1 函数逼近（Function Approximation）

摘要：函数逼近（Function Approximation）此前介绍的所有方法都是表格方法（tabular methods），即为每个状态–动作对存储一个值：要么是该动作的 Q 值，要么是该动作的偏好值。在大多数实际应用中，这样存储的值数量会迅速变得无法处理。例如当输入为原始图像时，可能的状态数目本阅读全文

posted @ 2025-10-12 19:36 55open 阅读(34) 评论(0) 推荐(0)

1.4 时间差分学习（Temporal Difference Learning）

摘要：时间差分学习（Temporal Difference Learning）时间差分（Temporal Difference）蒙特卡罗方法的主要缺点是：任务必须由有限的回合组成。这在实际中并不总是可行，而且值函数的更新必须等到整个回合结束后才能进行，从而导致学习速度变慢。时间差分（Temporal 阅读全文

posted @ 2025-10-12 19:20 55open 阅读(103) 评论(0) 推荐(0)

1.3 蒙特卡罗方法

摘要：蒙特卡罗方法在动态规划中，策略评估是通过显式求解贝尔曼方程完成的。而在蒙特卡罗（Monte Carlo）方法和时间差分（TD）方法中，策略评估依赖于采样。蒙特卡罗策略评估当环境是未知的（a priori unknown）时，必须通过探索来建立对状态值函数 \(V\) 或动作值函数 \(Q\) 阅读全文

posted @ 2025-10-12 19:07 55open 阅读(26) 评论(0) 推荐(0)

2025年10月7日

1.2 马尔可夫决策过程（Markov Decision Process, MDP）

摘要：定义强化学习（Reinforcement Learning, RL）方法适用于智能体（agent）以离散时间步与环境交互的问题。在时间 \(t\)，智能体处于状态 \(s_t\)，并决定执行一个动作 \(a_t\)。在下一时刻，它进入新的状态 \(s_{t+1}\)，并获得奖励 \(r_{t+1 阅读全文

posted @ 2025-10-07 20:17 55open 阅读(121) 评论(0) 推荐(0)

1.1 采样问题 Sampling and Bandits

摘要： n臂bandits（n-armed bandits） n臂bandits（multi-armed bandit）是最简单的试错式学习形式。学习与动作选择都发生在同一个状态中，在该状态下有 \(n\) 个可用动作，每个动作对应不同的奖励分布。目标是通过试错的方式找出哪个动作在平均意义上能获得最多的奖励阅读全文

posted @ 2025-10-07 20:10 55open 阅读(61) 评论(0) 推荐(0)

Hello World!

公告