强化学习网络 Q-learning、DQN、PPO

一、介绍

1. Q-learning(1989-1992)

  • 背景:属于经典的表格型(tabular)强化学习算法,基于时序差分(TD)学习。

  • 特点:用一张 Q 表格存储“状态-动作”价值,适用于离散状态和动作的小规模问题。

  • 局限:无法处理连续状态或高维状态(如像素图像),因为表格无法泛化。Q表的规模 = 状态空间大小 × 动作空间大小。

  • Q表规模=S×A
    • ∣S∣:状态空间的大小(所有可能的不同状态的数量)。

    • ∣A∣:动作空间的大小(所有可能的不同动作的数量)。

    • 表中的每个单元格存储一个Q值 Q(s,a),表示在状态s下采取动作 a 的长期预期回报。

2. DQN(Deep Q-Network,2013-2015)

  • 背景:深度学习的兴起,希望将神经网络作为函数逼近器用于 Q-learning。

  • 特点:用神经网络近似 Q 函数,从而处理高维状态空间。

  • 局限:本质上仍是基于价值的(value-based)、离散动作的方法,且存在过估计、训练不稳定等问题。

3. PPO(Proximal Policy Optimization,2017)

  • 背景:为了解决策略梯度方法(如 TRPO)训练不稳定、实现复杂的问题。

  • 里程碑:OpenAI 提出 PPO(2017),核心思想是通过裁剪(clipping)或自适应 KL 惩罚,限制策略更新的幅度,保证稳定与效率。

  • 特点:属于策略梯度(policy-based)、同策略(on-policy) 方法,能处理连续和离散动作,更稳定、易实现。

  • 应用:迅速成为深度强化学习领域的默认基准算法之一,尤其在机器人控制、游戏等复杂连续控制任务中表现优异。

二、三者核心区别对比

维度Q-learningDQNPPO
类型 基于价值(Value-based) 基于价值(Value-based) 基于策略(Policy-based) + 价值辅助(Actor-Critic)
策略表示 隐式(查表的方式,取 Q 值最大的动作 隐式(神经网络的 Q 值最大 显式(神经网络直接输出策略分布
动作空间 离散 离散 离散 或 连续
是否同策略(On-policy) 否(Off-policy) 否(Off-policy) 是(On-policy)
函数逼近器 无(表格 神经网络(Q 网络) 神经网络(策略网络 + 价值网络)
核心更新机制 贝尔曼最优方程:
Q(s,a) ← Q(s,a)+α[r+γ max Q(s',a')−Q(s,a)]
同 Q-learning,但用神经网络拟合 Q,并用目标网络和回放缓冲稳定训练 策略梯度,加裁剪目标函数:
max E[min(ratio · A, clip(ratio,1−ε,1+ε)·A)]
训练稳定性 稳定(表格) 较不稳定(需目标网络、回放缓冲) 稳定(通过裁剪限制更新步长)
采样效率 高(off-policy 可复用经验) 高(经验回放可重复利用) 较低(同策略,每轮更新后需新样本)
主要挑战 维数灾难(表格局限),不能处理高维 过估计、探索不充分、超参数敏感 探索与利用平衡、同策略需要大量新样本

注:

从 Q-learning → DQN 是 “从表格到神经网络” 的突破,解决了高维状态问题。
从 DQN → PPO(以及其他策略梯度方法)是 “从值到策略” 的转变,解决了连续动作与更稳定训练的需求。

算法优势适用场景
Q-learning 理论清晰、表格小问题收敛可靠 小型离散环境(网格世界等)
DQN 处理高维状态(图像)、经验回放高效采样 离散动作的视觉输入游戏(Atari)
PPO 连续/离散动作通用、训练稳定、易实现 机器人控制、连续动作游戏(如 MuJoCo)、复杂策略学习
posted @ 2025-09-30 10:13  wangssd  阅读(37)  评论(0)    收藏  举报