强化学习中的确定性策略与随机性策略是两种核心策略类型,其区别体现在策略表示、决策方式、探索能力、应用场景等多个维度。以下从技术原理和实际应用角度展开详细分析:
- 定义:给定状态 s,策略直接输出唯一确定的动作 a,表示为 \(a = \pi(s)\)。
- 数学形式:
- 连续动作:\(\pi: \mathcal{S} \to \mathcal{A}\),如 \(a = \tanh(\mathbf{W} \cdot f(s))\)(\(f(s)\)为状态特征)。
- 离散动作:通常通过贪心策略(如取 Q 值最大的动作)实现,即 \(a = \arg\max_a Q(s, a)\)。
- 示例:DDPG、TD3 算法采用确定性策略。
- 定义:给定状态 s,策略输出动作的概率分布 \(\pi(a|s)\),动作通过采样该分布生成。
- 数学形式:
- 连续动作:常用高斯分布 \(\pi(a|s) = \mathcal{N}(\mu(s), \sigma^2(s))\),如 SAC 算法。
- 离散动作:常用类别分布 \(\pi(a|s) = \text{softmax}(f(s))\),如 A2C、PPO 算法。
- 示例:SAC、PPO、A3C 等算法采用随机性策略。
| 维度 | 确定性策略 | 随机性策略 |
| 决策方式 |
直接输出确定动作 \(a = \pi(s)\) |
输出动作概率分布 \(\pi(a|s)\),采样生成动作 |
| 探索机制 |
依赖外部噪声(如 OU 噪声) |
天然具备探索能力(通过概率分布的熵) |
| 梯度计算 |
动作生成过程可导,梯度直接反向传播 |
需重参数化(连续分布)或策略梯度定理 |
| 策略表达能力 |
表达能力有限,适用于简单或连续动作空间 |
可表达更复杂的行为模式(如随机化最优策略) |
| 收敛稳定性 |
训练更稳定(无采样随机性) |
训练方差较大,但可能收敛到更优解 |
| 多智能体场景 |
难以处理策略交互的随机性 |
更适合建模对手策略的不确定性 |
- 噪声叠加:在动作输出后添加随机噪声(如 DDPG 中的 OU 噪声),公式为:\(a_{\text{explore}} = \pi(s) + \epsilon\),其中 \(\epsilon \sim \text{OU}(0, \sigma^2)\)。
- 特点:
- 探索与策略优化解耦,噪声不参与梯度计算。
- 噪声强度需手动调整(如退火策略),否则可能影响收敛。
- 内在随机性:通过策略分布的熵(Entropy)自然实现探索,公式为:\(H(\pi(\cdot|s)) = -\sum_a \pi(a|s) \log \pi(a|s)\)。
- 熵正则化:在目标函数中加入熵项(如 SAC 的最大熵目标):\(J(\pi) = \mathbb{E}_{s,a\sim\pi}[Q(s,a) + \alpha H(\pi(\cdot|s))]\),其中 \(\alpha\) 为温度参数。
- 特点:
- 探索能力由策略自身参数控制,无需手动调整噪声。
- 熵项可平衡探索与利用,避免陷入局部最优。
- 直接微分:策略网络输出动作 \(a = \pi_\theta(s)\),梯度通过网络参数直接反向传播。
- 示例(DDPG):策略梯度为 \(\nabla_\theta J \approx \mathbb{E}_{s\sim\rho^\pi}[\nabla_\theta \pi_\theta(s) \cdot \nabla_a Q_\phi(s, a)|_{a=\pi_\theta(s)}]\)。
- 优势:梯度计算高效,无需采样操作,方差低。
- 策略梯度定理:梯度通过对数概率的期望计算,公式为:\(\nabla_\theta J(\pi_\theta) \approx \mathbb{E}_{s\sim\rho^\pi, a\sim\pi_\theta}[\nabla_\theta \log \pi_\theta(a|s) \cdot A(s,a)]\),其中 \(A(s,a)\) 为优势函数。
- 重参数化技巧:连续分布(如高斯)需通过重参数化使采样可导,如 \(a = \mu_\theta(s) + \sigma_\theta(s) \cdot \epsilon\),\(\epsilon \sim \mathcal{N}(0,1)\)。
- 离散分布处理:用 Gumbel-Softmax 等方法松弛离散采样,如 \(a \approx \text{softmax}((\log \pi_\theta(a|s) + g)/\tau)\),其中 g 为 Gumbel 噪声。
- 特点:梯度估计方差较高,需大量样本或方差降低技巧(如重要性采样)。
- 连续动作空间且环境确定性强:如机器人控制(机械臂轨迹规划)、自动驾驶(方向盘角度控制)。
- 需要高效决策的场景:如 Atari 游戏中的确定性最优策略(如《Pong》的击球动作)。
- 代表算法:DDPG、TD3、ACER(结合确定性策略与策略梯度)。
- 环境存在不确定性或需对抗博弈:如多智能体博弈(需随机化策略防止被预测)、部分可观测环境(POMDP)。
- 需要探索复杂动作空间:如星际争霸 AI(需随机尝试不同战术)、机器人步态优化(需探索多种运动模式)。
- 代表算法:
- 连续动作:SAC(结合最大熵与重参数化)、PPO(连续动作版本)。
- 离散动作:A2C、PPO(离散动作版本)、QPG(策略梯度与 Q 学习结合)。
部分算法结合两者优势,例如:
- DDPG + 噪声探索:确定性策略通过叠加噪声实现探索,但策略本身仍是确定性的。
- SAC 的 “随机性 - 确定性” 切换:训练时用随机性策略探索,推理时用确定性策略(取均值\(\mu(s)\))保证效率。
- PPO 的随机策略与确定性评估:训练时用随机策略采样,评估时用确定性策略(取概率最高的动作)。
-
优先确定性策略:
- 若环境动态已知,且动作空间连续可导(如机器人控制)。
- 若需要低方差的梯度优化和快速收敛(如 DDPG 相比 SAC 训练更稳定)。
-
优先随机性策略:
- 若环境存在不确定性,或需处理离散动作空间(如 Atari 游戏)。
- 若需要策略自身具备探索能力(如无外部噪声机制时)。
-
关键权衡:
- 确定性策略:高效性 vs. 随机性策略:灵活性与探索能力。
- 实际应用中,可通过实验对比两种策略在具体任务上的表现(如收敛速度、最终性能)。