摘要:
策略梯度方法(Policy Gradient Methods) 背景 在基于值函数的方法(如 DQN)中,直接逼近 Q 值存在多种问题: Q 值无界:可能取任意实数(正或负),输出层必须是线性的; Q 值方差大:不同 \((s,a)\) 对的 Q 值差异巨大,神经网络难以拟合; 仅适用于离散动作空间 阅读全文
posted @ 2025-10-12 20:42
55open
阅读(27)
评论(0)
推荐(0)
摘要:
分布式学习(Distributed Learning) 分布式 DQN(GORILA) 深度强化学习的主要瓶颈是学习速度慢,主要由以下两点决定: 样本复杂度(sample complexity):获得令人满意的策略所需的状态转移数量; 在线交互限制(online interaction):智能体必须 阅读全文
posted @ 2025-10-12 20:35
55open
阅读(23)
评论(0)
推荐(0)
摘要:
DQN 变体(Rainbow) 双重 DQN(Double DQN) 在原始 DQN 中,经验回放与目标网络的引入使得 CNN 能够在强化学习中成功训练,但也带来了两个缺点: 学习速度显著降低,样本复杂度增高; 稳定性较差,不同运行结果可能不同。 @vanHasselt2015 提出了 Double 阅读全文
posted @ 2025-10-12 20:32
55open
阅读(40)
评论(0)
推荐(0)
摘要:
深度 Q 网络(Deep Q-Network, DQN) 深度神经网络在函数逼近中的局限性 值函数型深度强化学习的目标是使用深度神经网络(DNN)逼近每个状态–动作对的 Q 值。 网络可以有两种形式(见下图): 以状态–动作对 \((s,a)\) 为输入,输出对应的单个 Q 值; 以状态 \(s\) 阅读全文
posted @ 2025-10-12 20:26
55open
阅读(100)
评论(0)
推荐(0)
摘要:
深度学习(Deep Learning) 深度强化学习(Deep RL)使用深度神经网络作为函数逼近器,从而能够学习状态–动作对的复杂表示。本节对深度学习进行简要概述,更多细节可参考 @Goodfellow2016。 前馈神经网络(Feedforward Neural Networks) 一个深度神经 阅读全文
posted @ 2025-10-12 19:40
55open
阅读(52)
评论(0)
推荐(0)
摘要:
函数逼近(Function Approximation) 此前介绍的所有方法都是表格方法(tabular methods),即为每个状态–动作对存储一个值:要么是该动作的 Q 值,要么是该动作的偏好值。 在大多数实际应用中,这样存储的值数量会迅速变得无法处理。例如当输入为原始图像时,可能的状态数目本 阅读全文
posted @ 2025-10-12 19:36
55open
阅读(28)
评论(0)
推荐(0)
摘要:
时间差分学习(Temporal Difference Learning) 时间差分(Temporal Difference) 蒙特卡罗方法的主要缺点是:任务必须由有限的回合组成。这在实际中并不总是可行,而且值函数的更新必须等到整个回合结束后才能进行,从而导致学习速度变慢。 时间差分(Temporal 阅读全文
posted @ 2025-10-12 19:20
55open
阅读(71)
评论(0)
推荐(0)
摘要:
蒙特卡罗方法 在动态规划中,策略评估是通过显式求解贝尔曼方程完成的。而在蒙特卡罗(Monte Carlo)方法和时间差分(TD)方法中,策略评估依赖于采样。 蒙特卡罗策略评估 当环境是未知的(a priori unknown)时,必须通过探索来建立对状态值函数 \(V\) 或动作值函数 \(Q\) 阅读全文
posted @ 2025-10-12 19:07
55open
阅读(20)
评论(0)
推荐(0)

浙公网安备 33010602011771号