强化学习网络 Q-learning、DQN、PPO

一、介绍

1. Q-learning（1989-1992）

背景：属于经典的表格型（tabular）强化学习算法，基于时序差分（TD）学习。

特点：用一张 Q 表格存储“状态-动作”价值，适用于离散状态和动作的小规模问题。
局限：无法处理连续状态或高维状态（如像素图像），因为表格无法泛化。Q表的规模 = 状态空间大小 × 动作空间大小。
$Q 表规模$
- 表中的每个单元格存储一个Q值

2. DQN（Deep Q-Network，2013-2015）

背景：深度学习的兴起，希望将神经网络作为函数逼近器用于 Q-learning。
特点：用神经网络近似 Q 函数，从而处理高维状态空间。
局限：本质上仍是基于价值的（value-based）、离散动作的方法，且存在过估计、训练不稳定等问题。

3. PPO（Proximal Policy Optimization，2017）

背景：为了解决策略梯度方法（如 TRPO）训练不稳定、实现复杂的问题。
里程碑：OpenAI 提出 PPO（2017），核心思想是通过裁剪（clipping）或自适应 KL 惩罚，限制策略更新的幅度，保证稳定与效率。
特点：属于策略梯度（policy-based）、同策略（on-policy）方法，能处理连续和离散动作，更稳定、易实现。
应用：迅速成为深度强化学习领域的默认基准算法之一，尤其在机器人控制、游戏等复杂连续控制任务中表现优异。

二、三者核心区别对比

维度	Q-learning	DQN	PPO
类型	基于价值（Value-based）	基于价值（Value-based）	基于策略（Policy-based） + 价值辅助（Actor-Critic）
策略表示	隐式（查表的方式，取 Q 值最大的动作）	隐式（神经网络的 Q 值最大）	显式（神经网络直接输出策略分布）
动作空间	离散	离散	离散或连续
是否同策略（On-policy）	否（Off-policy）	否（Off-policy）	是（On-policy）
函数逼近器	无（表格）	神经网络（Q 网络）	神经网络（策略网络 + 价值网络）
核心更新机制	贝尔曼最优方程： Q(s,a) ← Q(s,a)+α[r+γ max Q(s',a')−Q(s,a)]	同 Q-learning，但用神经网络拟合 Q，并用目标网络和回放缓冲稳定训练	策略梯度，加裁剪目标函数： max E[min(ratio · A, clip(ratio,1−ε,1+ε)·A)]
训练稳定性	稳定（表格）	较不稳定（需目标网络、回放缓冲）	稳定（通过裁剪限制更新步长）
采样效率	高（off-policy 可复用经验）	高（经验回放可重复利用）	较低（同策略，每轮更新后需新样本）
主要挑战	维数灾难（表格局限），不能处理高维	过估计、探索不充分、超参数敏感	探索与利用平衡、同策略需要大量新样本

注：

从 Q-learning → DQN 是 “从表格到神经网络” 的突破，解决了高维状态问题。
从 DQN → PPO（以及其他策略梯度方法）是 “从值到策略” 的转变，解决了连续动作与更稳定训练的需求。

算法	优势	适用场景
Q-learning	理论清晰、表格小问题收敛可靠	小型离散环境（网格世界等）
DQN	处理高维状态（图像）、经验回放高效采样	离散动作的视觉输入游戏（Atari）
PPO	连续/离散动作通用、训练稳定、易实现	机器人控制、连续动作游戏（如 MuJoCo）、复杂策略学习

posted @ 2025-09-30 10:13 wangssd 阅读(37) 评论(0) 收藏举报

刷新页面返回顶部